Best Practices für durchsuchbares Archiv von Tausenden von Dokumenten (pdf und / oder xml)

Wiederbesichtigung eines ins Stocken geratenen Projekts und Suche nach Rat bei der Modernisierung Tausender "alter" Dokumente und deren Bereitstellung über das Internet.

Dokumente existieren in verschiedenen Formaten, einige sind veraltet: (.doc, PageMaker, Hardcopy (OCR),PDF, usw.). Es stehen Mittel zur Verfügung, um die Dokumente in ein "modernes" Format zu migrieren, und viele der Ausdrucke wurden bereits in PDFs OCR-fähig gemacht - wir hatten ursprünglich angenommen, dass PDF das endgültige Format ist, sind aber offen für Vorschläge (XML?) .

Sobald alle Dokumente in einem gemeinsamen Format vorliegen, möchten wir deren Inhalte zur Verfügung stellen undüber ein Webinterface durchsuchbar. Wir möchten die Flexibilität, nur Teile (Seiten?) Des gesamten Dokuments zurückzugeben, in denen ein Suchtreffer gefunden wird (ich glaube, Lucene / elasticsearch macht dies möglich?!?). Könnte es flexibler sein, wenn der Inhalt ausschließlich XML ist? Wenn ja, wie / wo soll das XML gespeichert werden? Direkt in der Datenbank oder als diskrete Dateien im Dateisystem? Was ist mit eingebetteten Bildern / Grafiken in den Dokumenten?

Neugierig, wie andere das angehen könnten. Es gibt keine "falsche" Antwort. Ich suche nur nach so vielen Eingaben wie möglich, damit wir weitermachen können.

Danke für jeden Rat.

Antworten auf die Frage(3)

Ihre Antwort auf die Frage