Wie kann ich in Perl Text aus einer PDF-Datei extrahieren?

Ich versuche, mit Perl Text aus PDF-Dateien zu extrahieren. Ich habe verwendetpdftotext.exe von der Kommandozeile (d. h. mit Perlsystem Funktion) zum Extrahieren von Text aus PDF-Dateien funktioniert diese Methode einwandfrei.

Das Problem ist, dass die PDF-Dateien Symbole wie α, β und andere Sonderzeichen enthalten, die in der generierten txt-Datei nicht angezeigt werden. Außerdem werden dem Text nach dem Zufallsprinzip einige zusätzliche Leerzeichen hinzugefügt.

Gibt es eine bessere und zuverlässigere Möglichkeit, Text aus PDF-Dateien zu extrahieren, sodass der Text alle Symbole wie α, β usw. enthält und genau mit dem Text im PDF übereinstimmt (d. H. Ohne zusätzliche Leerzeichen)?

Antworten auf die Frage(9)

Ihre Antwort auf die Frage