Jak programowo porównać dwa pliki PDF oparte na różnicach wizualnych? [Zamknięte]

Question

Jan 23, 2014, 03:59 PM

Jak programowo porównać dwa pliki PDF oparte na różnicach wizualnych? [Zamknięte]

Muszę porównać i uzyskać wszystkie różnice wizualne w dwóch plikach PDF. Wiem, że są pewne pytania związane z przepełnieniem stosu, ale nie spełniają moich potrzeb.

Obecnie używam PDFBox do generowania obrazów stron w formacie PDF i porównywania bajtów obrazów.

Dzięki takiemu podejściu wiem, że ta konkretna strona się różni.

Muszę jednak dowiedzieć się więcej szczegółów, takich jak rozmiar czcionki jakiegoś tekstu, na przykład - „Tekst” różni się numerem strony, powiedzmy 6 w plikach PDF.

Nie tylko dla tekstu, ale muszę zadbać o wszystkie różnice wizualne, takie jak obrazy, tekst na wykresach itp.

Proszę mi zasugerować, żeby to osiągnąć.

PS: Próbowałem użyć Apache Tika, ale mam wrażenie, że można go użyć do uzyskania uporządkowanego tekstu w XHTML i metadanych. Ale widzę drobne szczegóły, takie jak rozmiar czcionki, czcionka ósma nie pojawia się w tekście strukturalnym. Popraw mnie, jeśli się mylę.