Как узнать, что PDF-файл содержит только изображения или был сканирован OCR для поиска?

У меня есть куча файлов PDF, которые пришли из отсканированных документов. Файлы содержат смесь изображений и текста. Некоторые были отсканированы как изображения без распознавания текста, поэтому каждая страница PDF представляет собой одно большое изображение, даже если вся страница полностью текстовая. Другие были отсканированы с помощью оптического распознавания текста и содержат изображения и текст с возможностью поиска, где присутствует текст. Во многих случаях даже слова на изображениях были сделаны для поиска.

Я хочу автоматизировать процесс распознавания текста во всех отсканированных документах с помощью OCR с помощью Acrobat 8 Pro, но я не хочу повторно распознавать файлы, которые уже были обработаны OCR в прошлом. Кто-нибудь знает, есть ли способ сказать, какие из них содержат только изображения, а какие уже содержат текст для поиска?

Я планирую сделать это в C # или VB.NET, но я не думаю, что возможность различать два типа файлов зависит от языка.

Ответы на вопрос(7)

Ваш ответ на вопрос