Wie kann ich in Perl Text aus einer PDF-Datei extrahieren?

Question

Jul 16, 2009, 01:39 PM

Wie kann ich in Perl Text aus einer PDF-Datei extrahieren?

Ich versuche, mit Perl Text aus PDF-Dateien zu extrahieren. Ich habe verwendetpdftotext.exe von der Kommandozeile (d. h. mit Perlsystem Funktion) zum Extrahieren von Text aus PDF-Dateien funktioniert diese Methode einwandfrei.

Das Problem ist, dass die PDF-Dateien Symbole wie α, β und andere Sonderzeichen enthalten, die in der generierten txt-Datei nicht angezeigt werden. Außerdem werden dem Text nach dem Zufallsprinzip einige zusätzliche Leerzeichen hinzugefügt.

Gibt es eine bessere und zuverlässigere Möglichkeit, Text aus PDF-Dateien zu extrahieren, sodass der Text alle Symbole wie α, β usw. enthält und genau mit dem Text im PDF übereinstimmt (d. H. Ohne zusätzliche Leerzeichen)?