Białe znaki zniknęły z ekstrakcji PDF i dziwnej interpretacji słów
Używając poniższego fragmentu, próbowałem wyodrębnić dane tekstowe zto Plik PDF.
import pyPdf
def get_text(path):
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
content = ""
for i in range(0, pdf.getNumPages()):
content += pdf.getPage(i).extractText() + "\n" # Extract text from page and add to content
# Collapse whitespace
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
Thewyjście, które otrzymujęjednak jest pozbawiony białych znaków między większością słów. Utrudnia to przetwarzanie tekstu naturalnego w tekście (mój ostateczny cel, tutaj).
Również „fi” w słowie „palec” jest konsekwentnie interpretowane jako coś innego. Jest to raczej problematyczne, ponieważ ten artykuł dotyczy spontanicznych ruchów palców ...
Czy ktoś wie, dlaczego tak się dzieje? Nie wiem nawet od czego zacząć!