pyPdf ignora novas linhas no arquivo PDF

Question

Jun 13, 2012, 04:43 PM

pyPdf ignora novas linhas no arquivo PDF

Estou tentando extrair cada página de um PDF como uma string:

import pyPdf

pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
    this_page = pdf.getPage(i).extractText() + "\n"
    this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
    pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
    print '*' * 80
    print page

Mas esse script ignora os caracteres da nova linha, deixando-me com fios confusos comoinformation concerning an individual which, because of name, identifyingnumber, mark or description (isto é, isso deve leridentifying number, nãoidentifyingumber).

Aqui está um exemplo do tipo de PDF que estou tentando analisar.