Для PDF вам необходимо сначала преобразовать их в изображение, например, с помощью GhostScript.

OCR-библиотеку с открытым исходным кодом, которая работает в Linux. Мне это нужно для работы с PNG и PDF. В основном я хотел бы связать эту библиотеку с Java или Ruby. Любая идея, если есть что-нибудь доступное?

С уважением.