¿Cómo comparar dos PDFs basados en diferencias visuales programáticamente? [cerrado]

Question

Jan 23, 2014, 03:59 PM

¿Cómo comparar dos PDFs basados en diferencias visuales programáticamente? [cerrado]

Necesito comparar y obtener todas las diferencias visuales en los dos archivos PDF. Sé que hay algunas preguntas relacionadas con esto en el desbordamiento de pila, pero no están cumpliendo con mi necesidad.

Actualmente estoy usando PDFBox para generar imágenes para páginas en PDF y comparar los bytes de las imágenes.

Con este enfoque puedo saber que la página en particular es diferente.

Pero tengo que encontrar para saber algunos detalles más finos, como el tamaño de fuente de un texto, por ejemplo, "El texto" es diferente en el número de página, por ejemplo, 6 en los PDF.

No solo para el texto, sino que también tengo que ocuparme de todas las diferencias visuales, como imágenes, texto en las tablas, etc.

Por favor, sugiéreme de alguna manera para lograr esto.

PD: intenté usar Apache Tika pero tengo la sensación de que podría usarse para obtener texto estructurado en XHTML y metadatos. Pero estoy viendo los detalles finos como el tamaño de la fuente, la fuente ocho no aparece en el texto estructurado. Por favor corrígeme si me estoy equivocando.