Wykrywanie blisko duplikatów w Solr
Solr służy do przeszukiwania bazy danych aukcji generowanych przez użytkowników. Te listy są importowane do Solr z MySQL przez DataImportHandler.
Problem: Dość często użytkownicy zgłaszają tę samą listę do bazy danych, czasami z niewielkimi zmianami w swoim wpisie, aby uniknąć łatwego wykrycia jako duplikat postu.
Jak zaimplementować wykrywanie niemal duplikacji za pomocą Solr? Nie mam nic przeciwko posiadaniu prawie zduplikowanych wpisów w indeksie Solr, o ile wyniki wyszukiwania nie zawierają tych niemal duplikatów.
Sądzę, że są 4 możliwe miejsca do wykrycia niemal duplikatu
Gdy użytkownik prześle listę(Tutaj używany jest PHP)Podczas importu danych z MySQL do SolrPo zaimportowaniu danych z MySQLKiedy trwa wyszukiwanieJaki jest zalecany sposób, aby to zrobić? Dziękuję Ci!