pyPdf ignora las nuevas líneas en un archivo PDF
Estoy tratando de extraer cada página de un PDF como una cadena:
import pyPdf
pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
this_page = pdf.getPage(i).extractText() + "\n"
this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
print '*' * 80
print page
Pero este script ignora los caracteres de nueva línea, dejándome con cadenas desordenadas comoinformation concerning an individual which, because of name, identifyingnumber, mark or description
(es decir, esto debería leerseidentifying number
noidentifyingumber
).
Aquí un ejemplo del tipo de PDF que estoy tratando de analizar.