Espaço em branco retirado da extração de PDF e interpretação de palavras estranhas

Question

Jun 18, 2012, 07:16 PM

Espaço em branco retirado da extração de PDF e interpretação de palavras estranhas

Usando o trecho abaixo, tentei extrair os dados de texto deisto Ficheiro PDF.

import pyPdf

def get_text(path):
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    content = ""
    for i in range(0, pdf.getNumPages()):
        content += pdf.getPage(i).extractText() + "\n"  # Extract text from page and add to content
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

osaída eu obtenho, no entanto, é desprovida de espaço em branco entre a maioria das palavras. Isso dificulta o processamento de linguagem natural no texto (meu objetivo final, aqui).

Além disso, o 'fi' na palavra 'finger' é consistentemente interpretado como outra coisa. Isso é bastante problemático, já que este artigo trata de movimentos espontâneos dos dedos ...

Alguém sabe por que isso pode estar acontecendo? Eu nem sei por onde começar!