Como comparar dois PDFs com base em diferenças visuais programaticamente? [fechadas]

Question

Jan 23, 2014, 03:59 PM

Como comparar dois PDFs com base em diferenças visuais programaticamente? [fechadas]

Preciso comparar e obter todas as diferenças visuais nos dois arquivos PDF. Eu sei que existem algumas perguntas relacionadas a isso no estouro de pilha, mas elas não estão atendendo minha necessidade.

Atualmente, estou usando o PDFBox para gerar imagens para páginas em PDF e comparar os bytes das imagens.

Por essa abordagem, sou capaz de saber que determinada página está diferente.

Mas preciso encontrar mais detalhes, como o tamanho da fonte de um texto, por exemplo - "O texto" está diferindo no número da página, digamos 6 nos PDFs.

Não apenas para texto, mas preciso cuidar de todas as diferenças visuais, como imagens, texto nos gráficos etc.

Por favor, sugira-me alguma maneira de conseguir isso.

PS: Tentei usar o Apache Tika, mas estou com a sensação de que poderia ser usado para obter texto estruturado em XHTML e metadados. Mas estou vendo os detalhes, como o tamanho da fonte, a fonte oito não está aparecendo no texto estruturado. Por favor, corrija-me se estiver errado.