Como obter Unicode dos personagens do PDF usando java e PDFBox

Question

Sep 25, 2012, 08:10 AM

Como obter Unicode dos personagens do PDF usando java e PDFBox

Eu estou usando o Apache PDFBox e Java para analisar os PDFs e obter todas as informações dele. A extração de texto está funcionando bem apenas para o inglês. Para outros idiomas, recebo apenas alguns caracteres especiais. Por exemplo, extrair o caractere árabe irá dar o String: "? Na impressão. Ele está funcionando bem quando eu mudo a" Região e linguagem "do meu computador do inglês para o árabe. Então eu acho que extrair o Unicode dos caracteres vai resolver isso Por favor me ajude a obter o Unicode dos personagens do PDF ou me sugerir algumas soluções para resolver este problema.