pyPdf игнорирует переводы строк в файле PDF

Question

Jun 13, 2012, 04:43 PM

pyPdf игнорирует переводы строк в файле PDF

Я пытаюсь извлечь каждую страницу PDF в виде строки:

import pyPdf

pages = []
pdf = pyPdf.PdfFileReader(file('g-reg-101.pdf', 'rb'))
for i in range(0, pdf.getNumPages()):
    this_page = pdf.getPage(i).extractText() + "\n"
    this_page = " ".join(this_page.replace(u"\xa0", " ").strip().split())
    pages.append(this_page.encode("ascii", "xmlcharrefreplace"))
for page in pages:
    print '*' * 80
    print page

Но этот сценарий игнорирует символы новой строки, оставляя меня с такими беспорядочными строками, какinformation concerning an individual which, because of name, identifyingnumber, mark or description (то есть это следует читатьidentifying numberнеidentifyingumber).

Вот пример типа PDF, который я пытаюсь проанализировать.

pyPdf игнорирует переводы строк в файле PDF

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

pyPdf игнорирует переводы строк в файле PDF

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы