Extraindo informações de PDFs de documentos de pesquisa [fechados]

Question

Nov 28, 2009, 08:03 PM

Extraindo informações de PDFs de documentos de pesquisa [fechados]

Eu preciso de um mecanismo para extrair metadados bibliográficos de documentos PDF, para salvar as pessoas entrando manualmente ou recortando e colando.

No mínimo, o título e o resumo. A lista de autores e suas afiliações seria boa. Extrair as referências seria incrível.

Idealmente, isso seria uma solução de código aberto.

O problema é que nem todos os PDFs codificam o texto, e muitos que não preservam a ordem lógica do texto, portanto, apenas o texto pdf2 fornece a linha 1 da coluna 1, linha 1 da coluna 2, linha 2 da coluna 1 etc.

Eu sei que há muitas bibliotecas. É identificar o resumo, os autores dos títulos, etc., no documento que preciso resolver. Isso nunca será possível todas as vezes, mas 80% economizaria muito esforço humano.