Nahezu doppelte Erkennung in Solr

Solr wird verwendet, um eine Datenbank mit benutzerdefinierten Einträgen zu durchsuchen. Diese Auflistungen werden von MySQL über den DataImportHandler in Solr importiert.

Problem: Sehr oft melden Benutzer denselben Eintrag in der Datenbank, manchmal mit geringfügigen Änderungen an ihrem Eintragsposten, um zu vermeiden, dass er leicht als doppelter Eintrag erkannt wird.

Wie sollte ich mit Solr eine Fast-Duplizierungserkennung implementieren? Es macht mir nichts aus, nahezu doppelte Einträge im Solr-Index zu haben, solange die Suchergebnisse diese nahezu doppelten Einträge nicht enthalten.

Ich denke, es gibt 4 mögliche Stellen, an denen diese nahezu doppelte Erkennung durchgeführt werden kann

Wenn der Benutzer die Auflistung einreicht(PHP wird hier verwendet)Während des Datenimports von MySQL nach SolrNach dem Datenimport aus MySQLWenn eine Suche durchgeführt wird

Was ist der empfohlene Weg, um dies zu tun? Vielen Dank!

Antworten auf die Frage(1)

Ihre Antwort auf die Frage