Tabellendaten aus PDF extrahieren [geschlossen]
Gibt es eine konsistente Möglichkeit, Tabellen aus PDF-Dateien zu extrahieren? Irgendwelche Werkzeuge?
Was ich bisher gemacht habe:
Ich habe es ausprobiertpdftotext
Werkzeug. Es besteht die Möglichkeit, in ein HTML-Layout zu konvertieren.Was ist das Problem damit:
Die Tabelleninformationen werden in der HTML-Ausgabe nicht beibehaltenIch erwartete<table>
Tags, aber alles war unter<p>
Stichworte.Befindet sich in einem PDF-Dokument eine Markierung, die auf Tabellenstrukturen hinweist? Mögen<table>
, <tr>
und<td>
in HTML?
Wenn "ja", wären Hinweise darauf hilfreich. Wenn "nein", ist auch eine eindeutige Information über diesen Sachverhalt hilfreich.