como adicionar unicode no truetype0font no pdfbox 2.0.0?
Eu tenho usado o PDFBOX versão 2.0.0 em um projeto Java para converter PDFs em texto.
vários ou meus PDFs estão faltando o método ToUnicode, então eles saem em Gibberish enquanto eu os exporto.
2016-09-14 10:44:55 WARN org.apache.pdfbox.pdmodel.font.PDSimpleFont(1):322 - No Unicode mapping for 694 (30) in font MPBAAA+F1
no WARN acima, em vez do personagem real, um unicode sem sentido (30) foi apresentado.
Consegui superá-lo editando o arquivoadditional.txt
arquivo em pdfbox, pois, por tentativa e erro, entendi que o código do caractere (694 neste caso) representa uma certa letra hebraica (צ).
Aqui está um pequeno exemplo do que editei dentro do arquivo:
-694;05E6 #HexaDecimal value for the letter צ
-695;05E7
-696;05E8
mais tarde, encontrei quase o mesmo aviso em um pdf diferente, mas, em vez de caracteres sem sentido, não tenho caracteres. uma explicação mais detalhada desse problema pode ser vista aqui -leitura de pdf via pdfbox em java
2016-09-14 11:07:10 WARN org.apache.pdfbox.pdmodel.font.PDType0Font(1):431 - No Unicode mapping for CID+694 (694) in font ABCDEE+Tahoma,Bold
Como você pode ver, o aviso veio de uma classe diferente (PDType0Font
) em vez do primeiro aviso (PDSimpleFont
), mas o nome de código (694) é o mesmo nos dois e os dois estão falando sobre o mesmo caractere.
Existe um arquivo diferente que eu deva editar além deadditional.txt
apontar o código 694 (a letra hebraica צ) para o unicode correto?