Script para pesquisar texto em PDF

Problema

Na plataforma Mac OS X, gostaria de escrever um script, em Python ou Tcl, para pesquisar texto em um arquivo PDF e extrair as partes relevantes. Eu aprecio qualquer ajuda.

fundo

Eu estou escrevendo scripts para olhar dentro de um PDF para determinar se é uma conta, de qual empresa e por qual período. Com base nessas informações, renomeio o PDF e movo-o para um diretório apropriado. Por exemplo, arquivo comoStatement_03948293929384.pdf pode se tornar2012-07-15 Water Bill.pdf e mudou-se para o meuUtilities pasta.

O que eu fiz até agora?Pesquisei ferramentas de PDF para texto simples, mas ainda não encontrei nadaEu olhei para o wiki da Tcl e encontrei um exemplo, mas não consegui fazê-lo funcionar (procurei por texto em PDF, mas não achei).Eu estou olhando parapdf-parser.py de Didier StevensEu ouvi falar de um pacote Python chamado pyPdf e vou dar uma olhada nele.Atualizar

Eu encontrei uma ferramenta de linha de comando chamadapdftotext escrito por Glyph & Cog, LLC; construído e embalado porCarsten Bluem. Esta ferramenta é direta e resolve meu problema. Eu ainda estou olhando para as ferramentas que podem pesquisar PDF diretamente, sem ter que converter para arquivo de texto.

questionAnswers(1)

yourAnswerToTheQuestion