pyPdf ignoriert Zeilenumbrüche in PDF-Dateien
Ich versuche, jede Seite einer PDF-Datei als Zeichenfolge zu extrahieren:
import pyPdf
pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
this_page = pdf.getPage(i).extractText() + "\n"
this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
print '*' * 80
print page
Aber dieses Skript ignoriert Zeilenumbrüche und lässt mich mit chaotischen Zeichenketten zurückinformation concerning an individual which, because of name, identifyingnumber, mark or description
(das heißt, dies sollte lautenidentifying number
nichtidentifyingumber
).
Hier ist ein Beispiel von der Art von PDF versuche ich zu analysieren.