Tabellendaten aus PDF extrahieren [geschlossen]

Gibt es eine konsistente Möglichkeit, Tabellen aus PDF-Dateien zu extrahieren? Irgendwelche Werkzeuge?

Was ich bisher gemacht habe:

Ich habe es ausprobiertpdftotext Werkzeug. Es besteht die Möglichkeit, in ein HTML-Layout zu konvertieren.

Was ist das Problem damit:

Die Tabelleninformationen werden in der HTML-Ausgabe nicht beibehaltenIch erwartete<table> Tags, aber alles war unter<p> Stichworte.

Befindet sich in einem PDF-Dokument eine Markierung, die auf Tabellenstrukturen hinweist? Mögen<table>, <tr> und<td> in HTML?

Wenn "ja", wären Hinweise darauf hilfreich. Wenn "nein", ist auch eine eindeutige Information über diesen Sachverhalt hilfreich.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage