Espaço em branco retirado da extração de PDF e interpretação de palavras estranhas
Usando o trecho abaixo, tentei extrair os dados de texto deisto Ficheiro PDF.
import pyPdf
def get_text(path):
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
content = ""
for i in range(0, pdf.getNumPages()):
content += pdf.getPage(i).extractText() + "\n" # Extract text from page and add to content
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
osaída eu obtenho, no entanto, é desprovida de espaço em branco entre a maioria das palavras. Isso dificulta o processamento de linguagem natural no texto (meu objetivo final, aqui).
Além disso, o 'fi' na palavra 'finger' é consistentemente interpretado como outra coisa. Isso é bastante problemático, já que este artigo trata de movimentos espontâneos dos dedos ...
Alguém sabe por que isso pode estar acontecendo? Eu nem sei por onde começar!