pyPdf ignora novas linhas no arquivo PDF
Estou tentando extrair cada página de um PDF como uma string:
import pyPdf
pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
this_page = pdf.getPage(i).extractText() + "\n"
this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
print '*' * 80
print page
Mas esse script ignora os caracteres da nova linha, deixando-me com fios confusos comoinformation concerning an individual which, because of name, identifyingnumber, mark or description
(isto é, isso deve leridentifying number
, nãoidentifyingumber
).
Aqui está um exemplo do tipo de PDF que estou tentando analisar.