Как программно сравнить два PDF-файла на основе визуальных различий? [закрыто]
Мне нужно сравнить и получить все визуальные различия в двух файлах PDF. Я знаю, что есть некоторые вопросы, связанные с этим при переполнении стека, но они не удовлетворяют мою потребность.
В настоящее время я использую PDFBox для генерации изображений для страниц в PDF и сравниваю байты изображений.
Благодаря такому подходу я могу узнать, что конкретная страница отличается.
Но мне нужно узнать некоторые более мелкие детали, такие как размер шрифта некоторого текста, скажем - «Текст» отличается номером страницы, скажем, 6 в PDF-файлах.
Не только для текста, но я должен заботиться обо всех визуальных различиях, таких как изображения, текст в диаграммах и т. Д.
Пожалуйста, предложите мне как-нибудь добиться этого.
PS: я пытался использовать Apache Tika, но у меня возникает ощущение, что его можно использовать для получения структурированного текста в XHTML и метаданных. Но я вижу мелкие детали, такие как размер шрифта, шрифт восемь не отображается в структурированном тексте. Пожалуйста, поправьте меня, если я ошибаюсь.