pyPdf ignora las nuevas líneas en un archivo PDF

Question

Jun 13, 2012, 04:43 PM

pyPdf ignora las nuevas líneas en un archivo PDF

Estoy tratando de extraer cada página de un PDF como una cadena:

import pyPdf

pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
    this_page = pdf.getPage(i).extractText() + "\n"
    this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
    pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
    print '*' * 80
    print page

Pero este script ignora los caracteres de nueva línea, dejándome con cadenas desordenadas comoinformation concerning an individual which, because of name, identifyingnumber, mark or description (es decir, esto debería leerseidentifying numbernoidentifyingumber).

Aquí un ejemplo del tipo de PDF que estoy tratando de analizar.