pyPdf ignoriert Zeilenumbrüche in PDF-Dateien

Question

Jun 13, 2012, 04:43 PM

pyPdf ignoriert Zeilenumbrüche in PDF-Dateien

Ich versuche, jede Seite einer PDF-Datei als Zeichenfolge zu extrahieren:

import pyPdf

pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
    this_page = pdf.getPage(i).extractText() + "\n"
    this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
    pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
    print '*' * 80
    print page

Aber dieses Skript ignoriert Zeilenumbrüche und lässt mich mit chaotischen Zeichenketten zurückinformation concerning an individual which, because of name, identifyingnumber, mark or description (das heißt, dies sollte lautenidentifying numbernichtidentifyingumber).

Hier ist ein Beispiel von der Art von PDF versuche ich zu analysieren.