Как извлечь текст из PDF? [закрыто]
Кто-нибудь может порекомендовать библиотеку / API для извлечения текста и изображений из PDF? Нам нужно иметь возможность получить доступ к тексту, который содержится в заранее известных областях документа, поэтому API должен будет предоставить нам информацию о местоположении каждого элемента на странице.
Мы хотели бы, чтобы эти данные выводились вxml
или жеjson
формат. В настоящее время мы смотрим наPdfTextStream что кажется довольно хорошим, но хотел бы услышать опыт и предложения других людей.
Существуют ли альтернативы (коммерческие или бесплатные) для извлечения текста из pdf программно?