Wie vergleiche ich zwei PDFs programmgesteuert anhand visueller Unterschiede? [geschlossen]

Question

Jan 23, 2014, 03:59 PM

Wie vergleiche ich zwei PDFs programmgesteuert anhand visueller Unterschiede? [geschlossen]

Ich muss alle visuellen Unterschiede in den beiden PDF-Dateien vergleichen und ermitteln. Ich weiß, dass es einige Fragen zum Stapelüberlauf gibt, aber sie erfüllen meine Anforderungen nicht.

Ich verwende derzeit PDFBox, um Bilder für Seiten in PDF zu generieren und die Bytes der Bilder zu vergleichen.

Durch diesen Ansatz kann ich erkennen, dass sich eine bestimmte Seite unterscheidet.

Ich muss jedoch einige genauere Details wie die Schriftgröße eines Textes kennen, zum Beispiel "Der Text" unterscheidet sich in der Seitenzahl, zum Beispiel 6 in den PDFs.

Nicht nur für Text, sondern auch für alle visuellen Unterschiede wie Bilder, Texte in den Diagrammen usw.

Bitte schlagen Sie mir einen Weg vor, dies zu erreichen.

PS: Ich habe versucht, Apache Tika zu verwenden, aber ich habe das Gefühl, dass es verwendet werden kann, um strukturierten Text in XHTML und Metadaten zu erhalten. Aber ich sehe die feinen Details wie Schriftgröße, Schrift 8 erscheint nicht in strukturiertem Text. Bitte korrigieren Sie mich, wenn ich etwas falsch mache.