Como posso extrair texto de um arquivo PDF em Perl?
Eu estou tentando extrair texto de arquivos PDF usando Perl. Eu tenho usadopdftotext.exe
da linha de comando (por exemplo, usando Perlsystem
função) para extrair texto de arquivos PDF, este método funciona bem.
O problema é que temos símbolos como α, β e outros caracteres especiais nos arquivos PDF que não estão sendo exibidos no arquivo txt gerado. Também poucos espaços extras estão sendo adicionados aleatoriamente no texto.
Existe uma maneira melhor e mais confiável de extrair texto de arquivos PDF de forma que o texto inclua todos os símbolos como α, β etc e o texto corresponderá exatamente ao texto no PDF (ou seja, sem espaços extras)?