PDFMiner не может извлечь шрифт
Я конвертирую некоторые отчеты в формате PDF в обычный текст, используя PDFMiner, и куча моих входных PDF-файлов просто выходит с несколькими распознанными строками и затем списком (cid:% d), похожим на это ...
Отчет о проверке
(cid: 4) (cid: 5) (cid: 6) (cid: 7) (cid: 8) (cid: 9) (cid: 10) (cid: 9) (cid: 11) (cid: 9) (cid: 12) (cid: 9) (cid: 5) (cid: 13) (cid: 9) (cid: 14) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12) (cid: 17) (cid: 18) (cid: 13) (cid: 19) (cid: 20) (cid: 21) (cid: 8) (cid: 22) (cid: 23) (cid: 18) (cid: 12) (cid: 6) (cid: 22) (cid: 24) (cid: 25) (cid: 5) (cid: 26) (cid: 27) (cid: 9) (cid: 13) (cid: 22) (cid: 6) (cid: 18) (cid: 5) (cid: 5) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (чид: 12)
Проверка это, я думаю, проблема в том, что основная часть документа находится в шрифте, который сопротивляется извлечению. Отладка проблемы была довольно странной, потому что шрифт, казалось, менялся за ночь (не спрашивайте, как, просто это произошло).
Я не уверен, что может быть значительным, но сегодня шрифт имеет свойства:
name = 'font00000018f29a3e' - cidcoding = 'Adobe-Identity' - unicode_map = 'UnicodeMap: / Adobe-Identity-UCS' - unicode_map.cid2unichr = {}
Я использую 2.7 на Mac и попробовал несколько вещей
PyPDF2Копирование и вставка в textedit (символы пустые)Удаление и переустановка с помощью cmaps rebuiltВыключить и снова включить машинуДля справки все отчеты имеют одинаковую форму, один из которых можно найти здесь.
http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf
Проблема касается всех отчетов, опубликованных до сентября 2010 года.