Wie füge ich Unicode in truetype0font auf pdfbox 2.0.0 hinzu?

Ich habe die PDFBOX-Version 2.0.0 in einem Java-Projekt verwendet, um PDFs in Text zu konvertieren.

several o, f meinen pdfs fehlt die ToUnicode-Methode, so dass sie in Gibberish ausgegeben werden, während ich sie exportiere.

2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - No Unicode mapping for 694 (30) in font MPBAAA+F1

in der obigen Warnung wurde anstelle des echten Zeichens ein Kauderwelsch-Unicode (30) dargestellt.

Ich konnte es überwinden, indem ich das @ bearbeiteadditional.txt file in pdfbox, da ich durch Ausprobieren verstanden habe, dass der Code des Zeichens (in diesem Fall 694) einen bestimmten hebräischen Buchstaben (צ) darstellt.

hier ist ein kurzes Beispiel für das, was ich in der Datei bearbeitet habe:

-694;05E6 #HexaDecimal value for the letter צ
-695;05E7
-696;05E8

päter bin ich auf einem anderen PDF auf fast dieselbe Warnung gestoßen, aber anstelle von Kauderwelsch-Zeichen habe ich überhaupt keine Zeichen erhalten. Eine detailliertere Erläuterung dieses Problems finden Sie hier -pdf lesen via pdfbox in java

2016-09-14 11:07:10 WARN org.apache.pdfbox.pdmodel.font.PDType0Font(1):431 - No Unicode mapping for CID+694 (694) in font ABCDEE+Tahoma,Bold

ie Sie sehen können, kam die Warnung von einer anderen Klasse PDType0Font) statt der ersten Warnung PDSimpleFont), aber der Codename (694) ist in beiden gleich und beide sprechen über dasselbe Zeichen.

Gibt es eine andere Datei als @, die ich bearbeiten solltadditional.txt um den 694 Code (der hebräische Buchstabe צ) auf den korrekten Unicode zu zeigen?

Vielen Dank

Antworten auf die Frage(2)

Ihre Antwort auf die Frage