PDFMiner no puede extraer la fuente

Question

Apr 07, 2014, 11:32 AM

PDFMiner no puede extraer la fuente

Estoy convirtiendo algunos informes en PDF a texto sin formato con PDFMiner y un montón de mis PDF de entrada solo salen con un par de líneas reconocidas y luego una lista de (cid:% d) un poco como esto ...

Reporte de inspección

(cid: 4) (cid: 5) (cid: 6) (cid: 7) (cid: 8) (cid: 9) (cid: 10) (cid: 9) (cid: 11) (cid: 9) (cid: 12) (cid: 9) (cid: 5) (cid: 13) (cid: 9) (cid: 14) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12) (cid: 17) (cid: 18) (cid: 13) (cid: 19) (cid: 20) (cid: 21) (cid: 8) (cid: 22) (cid: 23) (cid: 18) (cid: 12) (cid: 6) (cid: 22) (cid: 24) (cid: 25) (cid: 5) (cid: 26) (cid: 27) (cid: 9) (cid: 13) (cid: 22) (cid: 6) (cid: 18) (cid: 5) (cid: 5) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12)

Al comprobarlo, creo que el problema es que la mayor parte del documento está en una fuente que se resiste a la extracción. La depuración del problema ha sido un poco extraña porque la fuente parecía cambiar durante la noche (no pregunte cómo, simplemente lo hizo).

No estoy seguro de lo que podría ser significativo, pero hoy la fuente tiene propiedades:

name = 'font0000000018f29a3e' - cidcoding = 'Adobe-Identity'- unicode_map =' UnicodeMap: / Adobe-Identity-UCS '- unicode_map.cid2unichr = {}

Estoy usando 2.7 en una Mac y he probado algunas cosas

PyPDF2Copiar y pegar en textedit (los caracteres están en blanco)Desinstalación y reinstalación con cmaps reconstruidoApagar la máquina y volver a encenderla

Como referencia, los informes son todos de forma similar, uno de los cuales se puede encontrar aquí.

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

El problema se aplica a todos los informes publicados antes de septiembre de 2010