Если у вас уже есть текст для распознавания текста и отсканированное изображение с использованием какого-либо другого компонента, большинство библиотек PDF смогут визуализировать отсканированное изображение на странице, а затем отдельные текстовые надписи поверх этого. Вы должны визуализировать текст на странице, а не на изображении, просто наложить текстовые элементы на элемент изображения на странице PDF. Я работаю в компании (www.gnostice.com), которая производит коммерческие PDF-компоненты, но я предполагаю, что вы сможете использовать PDFBox или iText.

Question

Feb 28, 2011, 05:46 AM

у вставить невидимый текст в существующий файл PDF, чтобы сделать его доступным для поиска.

Какая библиотека я должен использовать?
Буду признателен за ссылки на конкретныеМетоды API использовать.

Бесплатный, в идеале с открытым исходным кодом.
Большое спасибо!

(Для любопытных: я хочу автоматически распознавать входящие отсканированные документы и делать их доступными для поиска в хранилище Alfresco)

Ответы на вопрос(3)