PDFMiner не может извлечь шрифт

Question

Apr 07, 2014, 11:32 AM

PDFMiner не может извлечь шрифт

Я конвертирую некоторые отчеты в формате PDF в обычный текст, используя PDFMiner, и куча моих входных PDF-файлов просто выходит с несколькими распознанными строками и затем списком (cid:% d), похожим на это ...

Отчет о проверке

(cid: 4) (cid: 5) (cid: 6) (cid: 7) (cid: 8) (cid: 9) (cid: 10) (cid: 9) (cid: 11) (cid: 9) (cid: 12) (cid: 9) (cid: 5) (cid: 13) (cid: 9) (cid: 14) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12) (cid: 17) (cid: 18) (cid: 13) (cid: 19) (cid: 20) (cid: 21) (cid: 8) (cid: 22) (cid: 23) (cid: 18) (cid: 12) (cid: 6) (cid: 22) (cid: 24) (cid: 25) (cid: 5) (cid: 26) (cid: 27) (cid: 9) (cid: 13) (cid: 22) (cid: 6) (cid: 18) (cid: 5) (cid: 5) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (чид: 12)

Проверка это, я думаю, проблема в том, что основная часть документа находится в шрифте, который сопротивляется извлечению. Отладка проблемы была довольно странной, потому что шрифт, казалось, менялся за ночь (не спрашивайте, как, просто это произошло).

Я не уверен, что может быть значительным, но сегодня шрифт имеет свойства:

name = 'font00000018f29a3e' - cidcoding = 'Adobe-Identity' - unicode_map = 'UnicodeMap: / Adobe-Identity-UCS' - unicode_map.cid2unichr = {}

Я использую 2.7 на Mac и попробовал несколько вещей

PyPDF2Копирование и вставка в textedit (символы пустые)Удаление и переустановка с помощью cmaps rebuiltВыключить и снова включить машину

Для справки все отчеты имеют одинаковую форму, один из которых можно найти здесь.

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

Проблема касается всех отчетов, опубликованных до сентября 2010 года.

PDFMiner не может извлечь шрифт

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

PDFMiner не может извлечь шрифт

Ответы на вопрос(0)

Ваш ответ на вопрос

Популярные вопросы