pyPdf ignoriert Zeilenumbrüche in PDF-Dateien

Ich versuche, jede Seite einer PDF-Datei als Zeichenfolge zu extrahieren:

import pyPdf

pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
    this_page = pdf.getPage(i).extractText() + "\n"
    this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
    pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
    print '*' * 80
    print page

Aber dieses Skript ignoriert Zeilenumbrüche und lässt mich mit chaotischen Zeichenketten zurückinformation concerning an individual which, because of name, identifyingnumber, mark or description (das heißt, dies sollte lautenidentifying numbernichtidentifyingumber).

Hier ist ein Beispiel von der Art von PDF versuche ich zu analysieren.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage