Обнаружение почти одинаковых в Solr
Solr используется для поиска в базе данных пользовательских списков. Эти списки импортируются в Solr из MySQL через DataImportHandler.
Проблема: Довольно часто пользователи сообщают об одном и том же листинге в базу данных, иногда с небольшими изменениями в своем посте о листинге, чтобы его было легко обнаружить как дублирующий пост.
Как мне реализовать обнаружение почти дублирования с Solr? Я не против иметь почти одинаковые списки в индексе Solr, если результаты поиска не содержат почти одинаковые списки.
Я думаю, есть 4 возможных места, чтобы сделать это почти дублирование обнаружения
Когда пользователь отправляет листинг(Здесь используется PHP)При импорте данных из MySQL в SolrПосле импорта данных из MySQLКогда поиск выполняетсяКаков рекомендуемый способ сделать это? Спасибо!