Quase detecção de duplicatas no Solr

O Solr está sendo usado para pesquisar por meio de um banco de dados de listagens geradas pelo usuário. Essas listagens são importadas para o Solr do MySQL através do DataImportHandler.

Problema: Com muita frequência, os usuários relatam a mesma listagem para o banco de dados, às vezes com pequenas alterações na publicação da listagem, para evitar serem facilmente detectados como uma postagem duplicada.

Como devo implementar uma detecção de quase duplicação com o Solr? Não me importo de ter listagens quase duplicadas no índice do Solr, desde que os resultados da pesquisa não contenham essas listagens quase duplicadas.

Eu acho que existem 4 lugares possíveis para fazer essa detecção quase duplicada

Quando o usuário envia a listagem(PHP está sendo usado aqui)Durante a importação de dados do MySQL para o SolrApós a importação de dados do MySQLQuando uma pesquisa está sendo feita

Qual é a maneira recomendada de fazer isso? Obrigado!

questionAnswers(1)

yourAnswerToTheQuestion