Wie bekomme ich Unicode der Zeichen aus PDF mit Java und PDFBox

Question

Sep 25, 2012, 08:10 AM

Wie bekomme ich Unicode der Zeichen aus PDF mit Java und PDFBox

Ich verwende Apache PDFBox und Java, um die PDFs zu analysieren und alle Informationen daraus zu erhalten. Das Extrahieren von Text funktioniert nur in Englisch. Für andere Sprachen bekomme ich nur einige Sonderzeichen. Wenn Sie zum Beispiel das arabische Zeichen ش extrahieren, erhalten Sie die Zeichenfolge: "? Beim Drucken. Es funktioniert einwandfrei, wenn ich die" Region und Sprache "meines Computers von Englisch in Arabisch ändere. Ich denke, dies wird durch Extrahieren des Unicode der Zeichen behoben Bitte helfen Sie mir, den Unicode der Zeichen aus PDF zu erhalten, oder schlagen Sie mir einige Lösungen vor, um dieses Problem zu lösen.