Выбор между SimHash и MinHash для производственной системы

Я знаком с методами LSH (локально-чувствительное хеширование) SimHash и MinHash. SimHash использует косинусное сходство с реальными данными. MinHash вычисляет сходство сходства по двоичным векторам. Но я не могу решить, какой из них будет лучше использовать.

Я создаю бэкэнд-систему для веб-сайта, чтобы найти почти дубликаты полуструктурированных текстовых данных. Например, каждая запись будет иметь название, местоположение и краткое текстовое описание (<500 слов).

Если не учитывать конкретную языковую реализацию, какой алгоритм будет наилучшим для новой производственной системы?

Ответы на вопрос(2)

Ваш ответ на вопрос