Extraer / identificar tablas de PDF python [cerrado]

Question

Feb 16, 2015, 01:04 AM

Extraer / identificar tablas de PDF python [cerrado]

¿Hay alguna biblioteca de código abierto que admita la identificación y extracción de tablas?

Con esto quiero decir:

Identificar que existe una estructura de tablaClasifica la tabla de su contenidoExtraiga datos de la tabla en un formato de salida útil, p. Ej. JSON / CSV etc.

He examinado preguntas similares sobre este tema y he encontrado lo siguiente:

PDFMiner que aborda el problema 3, pero parece que el usuario debe especificar a PDFMiner dónde existe una estructura de tabla para cada tabla (corríjame si me equivoco)pdf-table-extract que intenta abordar el problema 1 pero de acuerdo con elQue hacer lista, actualmente no puede identificar tablas que están separadas por espacios en blanco. ¡Esto es un problema ya que todas las tablas en mis PDF están separadas por espacios en blanco!

Actualmente, estoy pensando que tendría que pasar mucho tiempo desarrollando una solución de Machine Learning para identificar estructuras de tablas a partir de archivos PDF. Por lo tanto, cualquier enfoque alternativo sería más que bienvenido.