Extrahieren / Identifizieren von Tabellen aus PDF-Python [geschlossen]

Question

Feb 16, 2015, 01:04 AM

Extrahieren / Identifizieren von Tabellen aus PDF-Python [geschlossen]

Gibt es Open Source-Bibliotheken, die die Identifizierung und Extraktion von Tabellen unterstützen?

Damit meine ich

Identify eine Tabellenstruktur existiertKlassifizieren Sie die Tabelle anhand ihres InhaltsExtrahieren Sie Daten aus der Tabelle in einem nützlichen Ausgabeformat, z. JSON / CSV usw.

Ich habe ähnliche Fragen zu diesem Thema durchgesehen und Folgendes festgestellt:

PDFMiner mit dem Problem 3 behoben wird, aber der Benutzer muss PDFMiner anscheinend angeben, wo für jede Tabelle eine Tabellenstruktur vorhanden ist (korrigieren Sie mich, wenn ich falsch liege). pdf-table-extract, das versucht, Problem 1 anzusprechen, aber gemäßMache Liste, kann derzeit keine durch Leerzeichen getrennten Tabellen identifizieren. Dies ist ein Problem, da alle Tabellen in meinen PDFs durch Leerzeichen getrennt sind!

erzeit denke ich, dass ich viel Zeit für die Entwicklung einer Lösung für maschinelles Lernen aufwenden muss, um Tabellenstrukturen aus PDFs zu identifizieren. Daher wären alternative Ansätze mehr als willkommen!