Extraer partes específicas de documentos PDF [cerrado]

Question

Jan 02, 2013, 03:29 PM

Extraer partes específicas de documentos PDF [cerrado]

Tengo varios (30) archivos PDF, cada uno contiene 48-96 páginas. El diseño de todas las páginas es idéntico, solo hay otros contenidos (números, gráficos).

Antecedentes: estas páginas son informes en PDF de las mediciones de cable de fibra, y tengo que ordenarlas por atenuación de los cables. Debido a problemas confidenciales, desafortunadamente no puedo dar un archivo de ejemplo.

Para verificar estos informes, estamos haciendo algunas muestras de control, por eso necesito que los informes estén ordenados. La pregunta ahora es: ¿Cómo puedo exportar solo partes muy específicas de todas las páginas en todos los archivos pdf a algún formato que pueda ordenar?

Como ya se mencionó, es muy específico donde los valores se encuentran en la página. También ya está "analizado" el contenido, por lo que está disponible "como texto" en el archivo PDF, por lo que no se escanea, no se requiere OCR.

Cualquier ayuda es apreciada. Actualmente no tengo idea de cómo resolver ese problema, podría ser alguna herramienta que haga algo así, o un enfoque de programación para resolverlo.