Обнаружение почти одинаковых в Solr

Solr используется для поиска в базе данных пользовательских списков. Эти списки импортируются в Solr из MySQL через DataImportHandler.

Problem: Довольно часто пользователи сообщают об одном и том же листинге в базу данных, иногда с небольшими изменениями в своем посте о листинге, чтобы его было легко обнаружить как повторяющийся пост.

Как мне реализовать обнаружение почти дублирования с Solr? Я не против иметь почти одинаковые списки в индексе Solr, если результаты поиска не содержат почти одинаковые списки.

Я думаю, есть 4 возможных места, чтобы сделать это почти дублирование обнаружения

When the user submits the listing (PHP is being used here) During the data import from MySQL to Solr After the data import from MySQL When a search is being done

Каков рекомендуемый способ сделать это? Спасибо!

Ответы на вопрос(1)

Ваш ответ на вопрос