PDF-Tabellenextraktion

Question

Apr 24, 2012, 05:10 PM

PDF-Tabellenextraktion

Ich habe (dieselben) Daten als GIF-Bilddatei und als PDF-Datei gespeichert und möchte sie in HTML oder XML analysieren. Die Daten sind eigentlich das Menü für die Cafeteria meiner Universität. Das heißt, es gibt eine neue Version der Datei, die jede Woche analysiert werden muss! Im Allgemeinen enthalten die Dateien Kopf- und Fußzeilentext sowie eine Tabelle mit anderen Daten dazwischen. Ich habe einige Posts über Stackoverflow gelesen und auch versucht, die Tabellendaten als HTML / XML auszuwerten:

PDF

PDFBox || iText (Java)Google Text & Tabellen-ImportPDF2HTML || PDF2Table

GIF

Tesseract-OCR

Ich habe das beste Ergebnis beim Parsen der PDF-Datei mit PDFBox erzielt, aber trotzdem (da das Menü wöchentlich wechselt) ist es nicht zuverlässig genug. Der HTML-Code, den ich erhalte, enthält manchmal mehr, manchmal weniger "Absätze" (<p>), so dass ich die Daten nicht genau genug analysieren kann.

Deshalb würde ich gerne wissen, ob es eine andere Möglichkeit gibt, dies zu tun?