¿Cómo raspar tablas en miles de archivos PDF?

Question

Aug 04, 2014, 08:27 PM

¿Cómo raspar tablas en miles de archivos PDF?

Tengo aproximadamente 1'500 archivos PDF que constan de solo 1 página cada uno y exhiben la misma estructura (verhttp://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf para un ejemplo).

Lo que estoy buscando es una forma de iterar sobre todos estos archivos (localmente, si es posible) y extraer el contenido real de la tabla (como CSV, almacenado en una base de datos SQLite, lo que sea).

Me encantaría hacer esto en Node.js, pero no pude encontrar ninguna biblioteca adecuada para analizar tales cosas. ¿Sabes de alguno?

Si no es posible en Node.js, también podría codificarlo en Python, si hay mejores métodos disponibles.