Wie extrahiere ich Text aus einer PDF-Datei? [geschlossen

Question

Sep 06, 2010, 01:11 PM

text ghostscript pdf text-extraction extraction

Wie extrahiere ich Text aus einer PDF-Datei? [geschlossen

Kann jemand eine Bibliothek / API zum Extrahieren von Text und Bildern aus einer PDF-Datei empfehlen? Wir müssen in der Lage sein, auf Text zuzugreifen, der in vorbekannten Bereichen des Dokuments enthalten ist, daher muss die API uns Positionsinformationen zu jedem Element auf der Seite geben.

Wir möchten, dass diese Daten in @ ausgegeben werdxml oderjson Format. Wir schauen uns gerade @ a PdfTextStream das scheint ziemlich gut zu sein, würde aber gerne die Erfahrungen und Vorschläge anderer Leute hören.

Gibt es Alternativen (kommerziell oder kostenlos) zum programmgesteuerten Extrahieren von Text aus einem PDF?