Skript zur Suche nach Text aus PDF

Problem

Auf der Mac OS X-Plattform möchte ich ein Skript schreiben, entweder in Python oder Tcl, um in einer PDF-Datei nach Text zu suchen und die relevanten Teile zu extrahieren. Ich freue mich über jede Hilfe.

Hintergrund

Ich schreibe Skripte, um in einem PDF zu sehen, ob es sich um eine Rechnung handelt, von welchem ​​Unternehmen und für welchen Zeitraum. Aufgrund dieser Informationen benenne ich das PDF um und verschiebe es in ein geeignetes Verzeichnis. Zum Beispiel Datei wieStatement_03948293929384.pdf könnte werden2012-07-15 Water Bill.pdf und zog zu meinemUtilities Mappe.

Was habe ich bisher gemacht?Ich habe nach PDF-to-Plain-Text-Tools gesucht, aber noch nichts gefundenIch habe in das Tcl-Wiki geschaut und ein Beispiel gefunden, konnte es aber nicht zum Laufen bringen (ich habe nach Text in PDF gesucht, aber nicht gefunden).Ich schaue inpdf-parser.py von Didier StevensIch habe von einem Python-Paket namens pyPdf gehört und werde es mir als nächstes ansehen.Aktualisieren

Ich habe ein Befehlszeilenprogramm namens gefundenpdftotext geschrieben von Glyph & Cog, LLC; gebaut und verpackt vonCarsten Bluem. Dieses Tool ist einfach und löst mein Problem. Ich bin immer noch auf der Suche nach Tools, die PDF direkt durchsuchen können, ohne in eine Textdatei konvertieren zu müssen.

Antworten auf die Frage(1)

Ihre Antwort auf die Frage