Лучшие практики для поиска в архиве тысяч документов (PDF и / или XML)

Пересмотр зашедшего в тупик проекта и поиск советов по модернизации тысяч «старых» документы и сделать их доступными через Интернет.

Документы существуют в разных форматах, некоторые устарели :(.doc, PageMaker, распечатка (OCR),PDF, так далее.). Имеются средства для переноса документов в «современные». формат, и многие из бумажных копий уже были распознаны в PDF - мы изначально предполагали, что PDF будет окончательным форматом, но мы открыты для предложений (XML?).

После того, как все документы в едином формате, мы хотели бы сделать их содержимое доступным иsearchable via a web interface, Нам нужна гибкость, позволяющая возвращать только те части (страницы?) Всего документа, в которых поиск "ударил". найден (я полагаю, что Lucene /asticsearch делает это возможным?!?) Может ли это быть более гибким, если весь контент был XML? Если да, то как / где хранить XML? Прямо в базе данных или как отдельные файлы в файловой системе? Что насчет встроенных изображений / графиков в документах?

Любопытно, как другие могут подойти к этому. Там нет "неправильно" ответ Я просто ищу как можно больше информации, чтобы помочь нам продолжить.

Спасибо за любой совет.

Ответы на вопрос(3)

Ваш ответ на вопрос