Skript zur Suche nach Text aus PDF
Auf der Mac OS X-Plattform möchte ich ein Skript schreiben, entweder in Python oder Tcl, um in einer PDF-Datei nach Text zu suchen und die relevanten Teile zu extrahieren. Ich freue mich über jede Hilfe.
HintergrundIch schreibe Skripte, um in einem PDF zu sehen, ob es sich um eine Rechnung handelt, von welchem Unternehmen und für welchen Zeitraum. Aufgrund dieser Informationen benenne ich das PDF um und verschiebe es in ein geeignetes Verzeichnis. Zum Beispiel Datei wieStatement_03948293929384.pdf
könnte werden2012-07-15 Water Bill.pdf
und zog zu meinemUtilities
Mappe.
pdf-parser.py
von Didier StevensIch habe von einem Python-Paket namens pyPdf gehört und werde es mir als nächstes ansehen.AktualisierenIch habe ein Befehlszeilenprogramm namens gefundenpdftotext geschrieben von Glyph & Cog, LLC; gebaut und verpackt vonCarsten Bluem. Dieses Tool ist einfach und löst mein Problem. Ich bin immer noch auf der Suche nach Tools, die PDF direkt durchsuchen können, ohne in eine Textdatei konvertieren zu müssen.