Prácticas recomendadas para archivos de miles de documentos en los que se pueden realizar búsquedas (pdf y / o XML)

Revisar un proyecto estancado y buscar asesoramiento para modernizar miles de documentos "antiguos" y ponerlos a disposición a través de la web.

Los documentos existen en varios formatos, algunos obsoletos: (.Doc, PageMaker, copia impresa (OCR),PDF, etc.). Los fondos están disponibles para migrar los documentos a un formato "moderno", y muchas de las copias impresas ya se han OCR en PDF. En un principio habíamos asumido que el formato final sería el PDF, pero estamos abiertos a sugerencias (¿XML?) .

Una vez que todos los documentos estén en un formato común, nos gustaría que sus contenidos estén disponibles ybúsqueda a través de una interfaz web. Nos gustaría tener la flexibilidad de devolver solo partes (páginas?) Del documento completo donde se encuentra un 'resultado' de búsqueda (¿creo que Lucene / elasticsearch lo hace posible?!?) ¿Podría ser más flexible si el contenido fuera todo XML? Si es así, ¿cómo / dónde almacenar el XML? ¿Directamente en la base de datos, o como archivos discretos en el sistema de archivos? ¿Qué pasa con las imágenes / gráficos incrustados en los documentos?

Curioso cómo otros pueden abordar esto. No hay una respuesta "equivocada". Estoy buscando la mayor cantidad posible de entradas para ayudarnos a continuar.

Gracias por cualquier consejo.

Respuestas a la pregunta(3)

Su respuesta a la pregunta