leitura de pdf via pdfbox em java

Question

Jun 16, 2016, 04:30 PM

leitura de pdf via pdfbox em java

Encontrei um problema ao ler o pdf usando o pdfbox. Meu pdf atual é parcialmente ilegível; portanto, quando copio e colo a parte ilegível em um editor, ele mostra pequenos símbolos de caixa, mas quando tento ler o mesmo arquivo via pdfbox, esses caracteres não são lidos (e não os espero) para ser lido). O que eu espero é que eu receba pelo menos alguns símbolos ou caracteres aleatórios em vez dos caracteres reais. Existe alguma maneira de fazer isso. Essa linha está sendo selecionada, portanto não é uma imagem. Alguém encontrou alguma solução alternativa para isso?

Há um exemplo de pdfbox em que substituímos o método writeString na classe pdfTextStripper para obter algumas propriedades extras da fonte. Estou usando esse método para obter meu texto e algumas propriedades de fonte. Então, minha pergunta foi por que o pdfbox não lê todos os caracteres (pode imprimir sem sentido). Mas no meu caso, contei o não. vezes que o método foi chamado (cada chamada de método corresponde a cada caractere) e viu que o não. das chamadas de método correspondiam aos caracteres no.of no texto de saída, mas não correspondiam ao total não. de caracteres no pdf. Aqui está um exemplo de pdf, a palavra "Lucro" é ilegível e o pdf nem exibe palavras sem sentido para esta palavra, apenas a ignora. Aqui está o link.https://drive.google.com/file/d/0B_Ke2amBgdpedUNwVTR3RVlRTFE/view?usp=sharing