Tabellendaten aus PDF extrahieren [geschlossen]

Question

May 06, 2014, 02:56 PM

Gibt es eine konsistente Möglichkeit, Tabellen aus PDF-Dateien zu extrahieren? Irgendwelche Werkzeuge?

Was ich bisher gemacht habe:

Ich habe es ausprobiertpdftotext Werkzeug. Es besteht die Möglichkeit, in ein HTML-Layout zu konvertieren.

Was ist das Problem damit:

Die Tabelleninformationen werden in der HTML-Ausgabe nicht beibehaltenIch erwartete<table> Tags, aber alles war unter<p> Stichworte.

Befindet sich in einem PDF-Dokument eine Markierung, die auf Tabellenstrukturen hinweist? Mögen<table>, <tr> und<td> in HTML?

Wenn "ja", wären Hinweise darauf hilfreich. Wenn "nein", ist auch eine eindeutige Information über diesen Sachverhalt hilfreich.

Antworten auf die Frage(2)

Tornado [Errno 24] Zu viele offene Dateien [duplizieren]

So füllen Sie das Dropdown-Feld in Spring MVC aus

Einfügen in ngGrid von Excel

Azure SQL-Datenbank-Trigger zum Einfügen von Überwachungsinformationen in Azure Table

Abrufen von Ausgabedateien aus einem MSBuild-Projekt