Como posso extrair texto de um arquivo PDF em Perl?

Question

Jul 16, 2009, 01:39 PM

Como posso extrair texto de um arquivo PDF em Perl?

Eu estou tentando extrair texto de arquivos PDF usando Perl. Eu tenho usadopdftotext.exe da linha de comando (por exemplo, usando Perlsystem função) para extrair texto de arquivos PDF, este método funciona bem.

O problema é que temos símbolos como α, β e outros caracteres especiais nos arquivos PDF que não estão sendo exibidos no arquivo txt gerado. Também poucos espaços extras estão sendo adicionados aleatoriamente no texto.

Existe uma maneira melhor e mais confiável de extrair texto de arquivos PDF de forma que o texto inclua todos os símbolos como α, β etc e o texto corresponderá exatamente ao texto no PDF (ou seja, sem espaços extras)?