Białe znaki zniknęły z ekstrakcji PDF i dziwnej interpretacji słów

Question

Jun 18, 2012, 07:16 PM

Białe znaki zniknęły z ekstrakcji PDF i dziwnej interpretacji słów

Używając poniższego fragmentu, próbowałem wyodrębnić dane tekstowe zto Plik PDF.

import pyPdf

def get_text(path):
    # Load PDF into pyPDF
    pdf = pyPdf.PdfFileReader(file(path, "rb"))
    # Iterate pages
    content = ""
    for i in range(0, pdf.getNumPages()):
        content += pdf.getPage(i).extractText() + "\n"  # Extract text from page and add to content
    # Collapse whitespace
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

Thewyjście, które otrzymujęjednak jest pozbawiony białych znaków między większością słów. Utrudnia to przetwarzanie tekstu naturalnego w tekście (mój ostateczny cel, tutaj).

Również „fi” w słowie „palec” jest konsekwentnie interpretowane jako coś innego. Jest to raczej problematyczne, ponieważ ten artykuł dotyczy spontanicznych ruchów palców ...

Czy ktoś wie, dlaczego tak się dzieje? Nie wiem nawet od czego zacząć!

leaveComments