Wykrywanie blisko duplikatów w Solr

Solr służy do przeszukiwania bazy danych aukcji generowanych przez użytkowników. Te listy są importowane do Solr z MySQL przez DataImportHandler.

Problem: Dość często użytkownicy zgłaszają tę samą listę do bazy danych, czasami z niewielkimi zmianami w swoim wpisie, aby uniknąć łatwego wykrycia jako duplikat postu.

Jak zaimplementować wykrywanie niemal duplikacji za pomocą Solr? Nie mam nic przeciwko posiadaniu prawie zduplikowanych wpisów w indeksie Solr, o ile wyniki wyszukiwania nie zawierają tych niemal duplikatów.

Sądzę, że są 4 możliwe miejsca do wykrycia niemal duplikatu

Gdy użytkownik prześle listę(Tutaj używany jest PHP)Podczas importu danych z MySQL do SolrPo zaimportowaniu danych z MySQLKiedy trwa wyszukiwanie

Jaki jest zalecany sposób, aby to zrobić? Dziękuję Ci!

questionAnswers(1)

yourAnswerToTheQuestion