Wyodrębnianie tabeli PDF

Question

Apr 24, 2012, 05:10 PM

Wyodrębnianie tabeli PDF

Mam (te same) dane zapisane jako plik obrazu GIF i jako plik PDF i chcę je przetworzyć na HTML lub XML. Dane są właściwie menu mojej kafeterii uniwersyteckiej. Oznacza to, że istnieje nowa wersja pliku, którą należy analizować co tydzień! Ogólnie pliki zawierają tekst nagłówka i stopki, a także tabelę zawierającą inne dane pomiędzy nimi. Przeczytałem kilka postów na stackoverflow i zacząłem też próbować analizować dane tabeli jako HTML / XML:

PDF

PDFBox || iText (Java)Import dokumentów GooglePDF2HTML || PDF2Table

GIF

Tesseract-OCR

Mam najlepszy wynik z parsowania pliku PDF za pomocą PDFBox, ale mimo to (jak zmienia się co tydzień menu), nie jest wystarczająco wiarygodny. HTML, który otrzymuję, zawiera czasami więcej, czasem mniej „akapitów” (<p>), tak że nie jestem w stanie wystarczająco przeanalizować wstępnej danych.

Dlatego chciałbym wiedzieć, czy istnieje inny sposób, aby to zrobić?