Como comparar dois PDFs com base em diferenças visuais programaticamente? [fechadas]
Preciso comparar e obter todas as diferenças visuais nos dois arquivos PDF. Eu sei que existem algumas perguntas relacionadas a isso no estouro de pilha, mas elas não estão atendendo minha necessidade.
Atualmente, estou usando o PDFBox para gerar imagens para páginas em PDF e comparar os bytes das imagens.
Por essa abordagem, sou capaz de saber que determinada página está diferente.
Mas preciso encontrar mais detalhes, como o tamanho da fonte de um texto, por exemplo - "O texto" está diferindo no número da página, digamos 6 nos PDFs.
Não apenas para texto, mas preciso cuidar de todas as diferenças visuais, como imagens, texto nos gráficos etc.
Por favor, sugira-me alguma maneira de conseguir isso.
PS: Tentei usar o Apache Tika, mas estou com a sensação de que poderia ser usado para obter texto estruturado em XHTML e metadados. Mas estou vendo os detalhes, como o tamanho da fonte, a fonte oito não está aparecendo no texto estruturado. Por favor, corrija-me se estiver errado.