Script para pesquisar texto em PDF
Na plataforma Mac OS X, gostaria de escrever um script, em Python ou Tcl, para pesquisar texto em um arquivo PDF e extrair as partes relevantes. Eu aprecio qualquer ajuda.
fundoEu estou escrevendo scripts para olhar dentro de um PDF para determinar se é uma conta, de qual empresa e por qual período. Com base nessas informações, renomeio o PDF e movo-o para um diretório apropriado. Por exemplo, arquivo comoStatement_03948293929384.pdf
pode se tornar2012-07-15 Water Bill.pdf
e mudou-se para o meuUtilities
pasta.
pdf-parser.py
de Didier StevensEu ouvi falar de um pacote Python chamado pyPdf e vou dar uma olhada nele.AtualizarEu encontrei uma ferramenta de linha de comando chamadapdftotext escrito por Glyph & Cog, LLC; construído e embalado porCarsten Bluem. Esta ferramenta é direta e resolve meu problema. Eu ainda estou olhando para as ferramentas que podem pesquisar PDF diretamente, sem ter que converter para arquivo de texto.