¿Qué hacer con los CID en el texto extraído por PDFMiner?

Question

Jun 09, 2018, 01:42 PM

¿Qué hacer con los CID en el texto extraído por PDFMiner?

Tengo algunos archivos PDF que están en hindi y tienen texto extraíble. Solía pdfminer.six para python 3.6, para hacer la extracción. El resultado se ve así:

omo se puede ver, hay una serie de caracteres que se convierten en la forma "(cid: número)".

En un análisis posterior, descubrí que un PDF contiene CMAP que asignan códigos de caracteres a índices de glifos. Entonces, un CID es una identidad de caracteres para el glifo al que se asigna, dentro de la tabla CMAP.

Pero, ¿cómo se relacionan estos códigos de caracteres con los valores Unicode? Básicamente, ¿cómo puede un visor de PDF mostrar el glifo usando esta asignación?

Además, según un comentario aest pregunta similar, este proceso puede no ser legal. Pero no estoy tratando de robar la fuente de alguien. Quiero el texto ¿Cómo se vuelve ilegal este proceso?

Dado que hay muchas preguntas como esta, quiero aclarar que no pretendo resolver el problema "cid". Quiero aclarar los motivos del problema y los motivos de su ilegalidad.

EDITAR Estacuestione págin parapdfminer analiza este problema, donde el autor dice claramente que no parece haber una solución confiable para este problema. ¿Existe alguna limitación básica general (como no tener acceso a la fuente) que haga que este problema sea continuo?