Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]

Мне нужно сравнить и получить все визуальные различия в двух файлах PDF. Я знаю, что есть некоторые вопросы, связанные с этим при переполнении стека, но они не удовлетворяют мою потребность.

В настоящее время я использую PDFBox для генерации изображений для страниц в PDF и сравниваю байты изображений.

Благодаря такому подходу я могу узнать, что конкретная страница отличается.

Но мне нужно узнать некоторые более мелкие детали, такие как размер шрифта некоторого текста, скажем - «Текст» отличается номером страницы, скажем, 6 в PDF-файлах.

Не только для текста, но я должен заботиться обо всех визуальных различиях, таких как изображения, текст в диаграммах и т. Д.

Пожалуйста, предложите мне как-нибудь добиться этого.

PS: я пытался использовать Apache Tika, но у меня возникает ощущение, что его можно использовать для получения структурированного текста в XHTML и метаданных. Но я вижу мелкие детали, такие как размер шрифта, шрифт восемь не отображается в структурированном тексте. Пожалуйста, поправьте меня, если я ошибаюсь.

Ответы на вопрос(2)

Ваш ответ на вопрос