Extraindo texto do PDF truncado [closed]

Question

Aug 29, 2012, 08:30 PM

Extraindo texto do PDF truncado [closed]

Eu tenho um arquivo PDF com informações textuais valiosas.

O problema é que não consigo extrair o texto, tudo que consigo é um monte de símbolos ilegíveis. O mesmo acontece se eu copiar e colar o texto do leitor de PDF em um arquivo de texto. AtéArquivo -> Salvar como texto no Acrobat Reader falha.

Eu usei todas as ferramentas que consegui colocar em minhas mãos e o resultado é o mesmo. Eu acredito que isso tem algo a ver com a incorporação de fontes, mas eu não sei exatamente o que?

Minhas perguntas:

Qual é o culpado desse estranhotexto trepidante?Como extrair o conteúdo do texto do PDF (programaticamente, com uma ferramenta, manipulando os bits diretamente, etc.)?Como corrigir o PDF para não garble na cópia?