Najlepsze praktyki wyszukiwania archiwów tysięcy dokumentów (pdf i / lub xml)

Question

Jun 01, 2012, 07:32 PM

lucene xml full-text-search pdf elasticsearch

Najlepsze praktyki wyszukiwania archiwów tysięcy dokumentów (pdf i / lub xml)

Ponowne odwiedzanie zablokowanego projektu i szukanie porad w modernizowaniu tysięcy „starych” dokumentów i udostępnianiu ich w sieci.

Dokumenty istnieją w różnych formatach, niektóre są przestarzałe: (.doc, PageMaker, drukowana (OCR),PDFitd.). Dostępne są środki na migrację dokumentów do „nowoczesnego” formatu, a wiele wersji papierowych zostało już OCR w plikach PDF - pierwotnie zakładaliśmy, że ostatecznym formatem będzie PDF, ale jesteśmy otwarci na sugestie (XML?) .

Gdy wszystkie dokumenty będą we wspólnym formacie, chcielibyśmy udostępnić ich zawartość iprzeszukiwanie za pomocą interfejsu internetowego. Chcielibyśmy, aby elastyczność zwracania tylko części (stron?) Całego dokumentu, w których znaleziono „trafienie” wyszukiwania (wierzę, że to umożliwia Lucene / elasticsearch?!?). Jeśli tak, to jak / gdzie przechowywać XML? Bezpośrednio w bazie danych lub jako dyskretne pliki w systemie plików? Co z osadzonymi obrazami / wykresami w dokumentach?

Ciekawe, jak inni mogą się do tego zbliżyć. Nie ma „złej” odpowiedzi Po prostu szukam jak największej liczby danych wejściowych, aby pomóc nam kontynuować.

Dzięki za każdą radę.