A fonte não pode ser extraída pelo PDFMiner

Estou convertendo alguns relatórios em PDF para texto sem formatação usando o PDFMiner e vários dos meus PDFs de entrada são lançados com algumas linhas reconhecidas e, em seguida, uma lista de (cid:% d) um pouco como esta ...

Relatório de inspeção

(cid: 4) (cid: 5) (cid: 6) (cid: 7) (cid: 8) (cid: 9) (cid: 10) (cid: 9) (cid: 11) (cid: 9) (cid: 12) (cid: 9) (cid: 5) (cid: 13) (cid: 9) (cid: 14) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12) (cid: 17) (cid: 18) (cid: 13) (cid: 19) (cid: 20) (cid: 21) (cid: 8) (cid: 22) (cid: 23) (cid: 18) (cid: 12) (cid: 6) (cid: 22) (cid: 24) (cid: 25) (cid: 5) (cid: 26) (cid: 27) (cid: 9) (cid: 13) (cid: 22) (cid: 6) (cid: 18) (cid: 5) (cid: 5) (cid: 8) (cid: 15) (cid: 16) (cid: 9) (cid: 12)

Verificando Acho que o problema é que a maior parte do documento está em uma fonte que está resistindo à extração. Depurar o problema tem sido meio estranho, porque a fonte parecia mudar durante a noite (não pergunte como, apenas aconteceu).

Não sei o que pode ser significativo, mas hoje a fonte possui propriedades:

nome = 'font0000000018f29a3e' - cidcoding = 'Adobe-Identity' - unicode_map = 'UnicodeMap: / Adobe-Identity-UCS' - unicode_map.cid2unichr = {}

Estou usando 2.7 em um mac e tentei algumas coisas

PyPDF2Copiando e colando no editor de texto (os caracteres estão em branco)Desinstalando e Reinstalando com os Cmaps ReconstruídosDesligando a máquina e ligando novamente

Para referência, os relatórios são todos de forma semelhante, um dos quais pode ser encontrado aqui.

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

O problema se aplica a todos os relatórios publicados antes de setembro de 2010

questionAnswers(0)

yourAnswerToTheQuestion