Wie kann ich in Perl Text aus einer PDF-Datei extrahieren?
Ich versuche, mit Perl Text aus PDF-Dateien zu extrahieren. Ich habe verwendetpdftotext.exe
von der Kommandozeile (d. h. mit Perlsystem
Funktion) zum Extrahieren von Text aus PDF-Dateien funktioniert diese Methode einwandfrei.
Das Problem ist, dass die PDF-Dateien Symbole wie α, β und andere Sonderzeichen enthalten, die in der generierten txt-Datei nicht angezeigt werden. Außerdem werden dem Text nach dem Zufallsprinzip einige zusätzliche Leerzeichen hinzugefügt.
Gibt es eine bessere und zuverlässigere Möglichkeit, Text aus PDF-Dateien zu extrahieren, sodass der Text alle Symbole wie α, β usw. enthält und genau mit dem Text im PDF übereinstimmt (d. H. Ohne zusätzliche Leerzeichen)?