Extraia Imagens e Palavras com coordenadas e tamanhos de PDF

Question

Nov 23, 2011, 12:52 PM

Extraia Imagens e Palavras com coordenadas e tamanhos de PDF

Eu li muito sobre extrações e bibliotecas de PDF (como o iText), mas ainda não encontrei uma solução para extrair imagens e texto (com coordenadas) de um PD

A tarefa é digitalizar PDF com o catálogo de produtos e extrair cada imagem. Há umimage code impresso ao lado de cada imagem e também uma lista deproduct codes para os produtos mostrados na imagem.

Eu sei que não há como extrair informações estruturadas de um PDF como este, mas com coordenadas de todos os objetos de imagem e texto, eu poderia escrever um código para identificar o texto vinculado por sua distância da imagem. Então eu poderia dividir o texto usando um RegExp e descobrir o que é umCódigo do produt, O que é umimage code etc.

Você recomendaria uma solução boa e funcional para a tarefa?