Пробелы ушли от извлечения PDF, и странная интерпретация слова

Question

Jun 19, 2012, 05:08 AM

Пробелы ушли от извлечения PDF, и странная интерпретация слова

Используя приведенный ниже фрагмент, я попытался извлечь текстовые данные изэтот PDF файл

import pyPdf

def get_text(path):
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    content = ""
    for i in range(0, pdf.getNumPages()):
        content += pdf.getPage(i).extractText() + "\n"  # Extract text from page and add to content
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

выходной я получаюоднако, лишен пробела между большинством слов. Это затрудняет обработку текста на естественном языке (моя конечная цель здесь).

Кроме того, 'fi' в слове «палец» последовательно интерпретируется как что-то еще. Это довольно проблематично, так как эта статья о спонтанных движениях пальцев ...

Кто-нибудь знает, почему это может происходить? Я даже не знаю, с чего начать!

Пробелы ушли от извлечения PDF, и странная интерпретация слова

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Пробелы ушли от извлечения PDF, и странная интерпретация слова

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы