Script para buscar texto desde PDF
En la plataforma Mac OS X, me gustaría escribir un script, ya sea en Python o Tcl para buscar texto dentro de un archivo PDF y extraer las partes relevantes. Aprecio cualquier ayuda.
FondoEstoy escribiendo guiones para mirar dentro de un PDF para determinar si se trata de una factura, de qué compañía y durante qué período. Basándome en esta información, cambio el nombre del PDF y lo muevo a un directorio apropiado. Por ejemplo, un archivo comoStatement_03948293929384.pdf
podría convertirse2012-07-15 Water Bill.pdf
y me mudé a miUtilities
carpeta.
pdf-parser.py
por Didier StevensEscuché sobre un paquete de Python llamado pyPdf y lo veré a continuación.ActualizarHe encontrado una herramienta de línea de comandos llamadapdftotext escrito por Glyph & Cog, LLC; construido y empaquetado porCarsten Bluem. Esta herramienta es sencilla y resuelve mi problema. Todavía estoy buscando aquellas herramientas que pueden buscar PDF directamente, sin tener que convertir a un archivo de texto.