Extraer imágenes y palabras con coordenadas y tamaños desde PDF

Question

Nov 23, 2011, 12:52 PM

Extraer imágenes y palabras con coordenadas y tamaños desde PDF

He leído mucho sobre las extracciones y bibliotecas de PDF (como iText) pero simplemente no he encontrado una solución para extraer imágenes y texto (con coordenadas) de un PDF.

La tarea es escanear PDF con el catálogo de productos y extraer cada imagen. Hay un código de imagen impreso junto a cada imagen y también una lista de códigos de producto para productos que se muestran en la imagen.

Sé que no hay forma de extraer información estructurada de un PDF como este, pero con las coordenadas de todos los objetos de imagen y texto, podría escribir código para identificar el texto vinculado por su distancia de la imagen. Entonces podría dividir el texto usando un RegExp y descubrir qué es uncódigo de product, que es un código de imagen etc.

Podría recomendar una solución buena y funcional para la tarea?