Práticas recomendadas para arquivamento pesquisável de milhares de documentos (pdf e / ou xml)

Question

Jun 01, 2012, 07:32 PM

elasticsearch pdf full-text-search xml lucene

Práticas recomendadas para arquivamento pesquisável de milhares de documentos (pdf e / ou xml)

Revisitando um projeto parado e procurando conselhos para modernizar milhares de documentos "antigos" e disponibilizá-los via web.

Existem documentos em vários formatos, alguns obsoletos: (.doc, PageMaker, cópia impressa (OCR),PDF, etc.). Fundos estão disponíveis para migrar os documentos para um formato "moderno", e muitas das cópias impressas já foram OCR em PDFs - originalmente tínhamos assumido que o PDF seria o formato final, mas estamos abertos a sugestões (XML?) .

Depois que todos os documentos estiverem em um formato comum, gostaríamos de disponibilizar seus conteúdos epesquisável através de uma interface web. Gostaríamos da flexibilidade de retornar apenas partes (páginas?) De todo o documento onde um 'hit' de pesquisa é encontrado (acredito que o Lucene / elasticsearch torna isso possível?!?). Seria mais flexível se o conteúdo fosse todo XML? Se sim, como / onde armazenar o XML? Diretamente no banco de dados, ou como arquivos discretos no sistema de arquivos? E quanto a imagens / gráficos incorporados nos documentos?

Curioso como os outros podem se aproximar disso. Não há resposta "errada". Estou apenas procurando o maior número possível de insumos para nos ajudar a prosseguir.

Obrigado por qualquer conselho.