Пробелы ушли от извлечения PDF, и странная интерпретация слова
Используя приведенный ниже фрагмент, я попытался извлечь текстовые данные изэтот PDF файл
import pyPdf
def get_text(path):
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
content = ""
for i in range(0, pdf.getNumPages()):
content += pdf.getPage(i).extractText() + "\n" # Extract text from page and add to content
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
выходной я получаюоднако, лишен пробела между большинством слов. Это затрудняет обработку текста на естественном языке (моя конечная цель здесь).
Кроме того, 'fi' в слове «палец» последовательно интерпретируется как что-то еще. Это довольно проблематично, так как эта статья о спонтанных движениях пальцев ...
Кто-нибудь знает, почему это может происходить? Я даже не знаю, с чего начать!