Как добавить Unicode в Truetype0font на pdfbox 2.0.0?
Я использовал PDFBOX версии 2.0.0 в проекте Java для преобразования PDF в текст.
В моих файлах PDF отсутствует метод ToUnicode, поэтому они появляются на Gibberish, а я их экспортирую.
2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - No Unicode mapping for 694 (30) in font MPBAAA+F1
в ПРЕДУПРЕЖДЕНИИ выше вместо реального символа был представлен бессмысленный юникод (30).
Я смог преодолеть это, отредактировавadditional.txt
файл в pdfbox, так как из метода «проб и ошибок» я понял, что код символа (в данном случае 694) представляет собой определенную букву иврита (צ).
вот краткий пример того, что я отредактировал внутри файла:
-694;05E6 #HexaDecimal value for the letter צ
-695;05E7
-696;05E8
позже я встретил почти такое же предупреждение в другом PDF-файле, но вместо тарабарских символов я вообще не получил никаких символов. более подробное объяснение этого вопроса можно увидеть здесь -чтение PDF через pdfbox в Java
2016-09-14 11:07:10 WARN org.apache.pdfbox.pdmodel.font.PDType0Font(1):431 - No Unicode mapping for CID+694 (694) in font ABCDEE+Tahoma,Bold
Как видите, предупреждение пришло из другого класса (PDType0Font
) а не первое предупреждение (PDSimpleFont
), но кодовое имя (694) одинаково для них обоих, и они оба говорят об одном и том же символе.
Есть ли другой файл, который я должен редактировать, кромеadditional.txt
указать код 694 (ивритскую букву צ) на правильный юникод?