PDFMiner не может извлечь шрифт

Я конвертирую некоторые отчеты в формате PDF в обычный текст, используя PDFMiner, и куча моих входных PDF-файлов просто выходит с несколькими распознанными строками и затем списком (cid:% d), похожим на это ...

Отчет о проверке

(cid: 4) (cid: 5) (cid: 6) (cid: 7) (cid: 8) (cid: 9) (cid: 10) (cid: 9) (cid: 11) (cid: 9) (cid: 12) (cid: 9) (cid: 5) (cid: 13) (cid: 9) (cid: 14) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12) (cid: 17) (cid: 18) (cid: 13) (cid: 19) (cid: 20) (cid: 21) (cid: 8) (cid: 22) (cid: 23) (cid: 18) (cid: 12) (cid: 6) (cid: 22) (cid: 24) (cid: 25) (cid: 5) (cid: 26) (cid: 27) (cid: 9) (cid: 13) (cid: 22) (cid: 6) (cid: 18) (cid: 5) (cid: 5) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (чид: 12)

Проверка это, я думаю, проблема в том, что основная часть документа находится в шрифте, который сопротивляется извлечению. Отладка проблемы была довольно странной, потому что шрифт, казалось, менялся за ночь (не спрашивайте, как, просто это произошло).

Я не уверен, что может быть значительным, но сегодня шрифт имеет свойства:

name = 'font00000018f29a3e' - cidcoding = 'Adobe-Identity' - unicode_map = 'UnicodeMap: / Adobe-Identity-UCS' - unicode_map.cid2unichr = {}

Я использую 2.7 на Mac и попробовал несколько вещей

PyPDF2Копирование и вставка в textedit (символы пустые)Удаление и переустановка с помощью cmaps rebuiltВыключить и снова включить машину

Для справки все отчеты имеют одинаковую форму, один из которых можно найти здесь.

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

Проблема касается всех отчетов, опубликованных до сентября 2010 года.

Ответы на вопрос(0)

Ваш ответ на вопрос