Detección casi duplicada en Solr

Solr se utiliza para buscar en una base de datos de listados generados por usuarios. Estos listados se importan a Solr desde MySQL a través del DataImportHandler.

Problema: Con bastante frecuencia, los usuarios reportan la misma lista en la base de datos, a veces con cambios menores en su publicación de la lista para evitar ser detectados fácilmente como una publicación duplicada.

¿Cómo debo implementar una detección de casi duplicación con Solr? No me importa tener listados casi duplicados en el índice de Solr siempre que los resultados de la búsqueda no contengan estos listados casi duplicados.

Supongo que hay 4 lugares posibles para hacer esta detección casi duplicada

Cuando el usuario envía el listado(PHP se está utilizando aquí)Durante la importación de datos desde MySQL a SolrDespués de la importación de datos desde MySQLCuando se hace una búsqueda.

cual es la manera recomendada para hacer esto? ¡Gracias!

Respuestas a la pregunta(1)

Su respuesta a la pregunta