¿Cómo saber si un PDF solo contiene imágenes o se ha escaneado OCR para buscar?

Question

Sep 29, 2009, 12:45 AM

¿Cómo saber si un PDF solo contiene imágenes o se ha escaneado OCR para buscar?

Tengo un montón de archivos PDF que provienen de documentos escaneados. Los archivos contienen una mezcla de imágenes y texto. Algunos se escanearon como imágenes sin OCR, por lo que cada página PDF es una imagen grande, incluso donde toda la página es completamente de texto. Otros se escanearon con OCR y contienen imágenes y texto de búsqueda donde el texto está presente. En muchos casos, incluso las palabras en las imágenes se pueden buscar.

Quiero hacer un proceso automatizado para reconocer el texto en todos los documentos escaneados utilizando OCR, con Acrobat 8 Pro, pero no quiero volver a OCR los archivos que ya han pasado por el proceso de OCR en el pasado. ¿Alguien sabe si hay una manera de saber cuáles contienen solo imágenes y cuáles ya contienen texto de búsqueda?

Estoy planeando hacer esto en C # o VB.NET pero no creo que poder diferenciar los dos tipos de archivos depende del idioma.