¿Cómo extraer texto de un PDF? [cerrado]

Question

Sep 06, 2010, 01:11 PM

pdf text text-extraction extraction ghostscript

¿Cómo extraer texto de un PDF? [cerrado]

¿Alguien puede recomendar una biblioteca / API para extraer el texto y las imágenes de un PDF? Necesitamos poder llegar al texto que se encuentra en regiones previamente conocidas del documento, por lo que la API deberá proporcionarnos información posicional de cada elemento en la página.

Nos gustaría que los datos salgan enxml ojson formato. Actualmente estamos viendoPdfTextStream lo cual parece bastante bueno, pero me gustaría escuchar las experiencias y sugerencias de otras personas.

¿Existen alternativas (comerciales o gratuitas) para extraer texto de un pdf mediante programación?