Выбор между SimHash и MinHash для производственной системы

Question

Dec 30, 2014, 09:59 PM

Выбор между SimHash и MinHash для производственной системы

Я знаком с методами LSH (локально-чувствительное хеширование) SimHash и MinHash. SimHash использует косинусное сходство с реальными данными. MinHash вычисляет сходство сходства по двоичным векторам. Но я не могу решить, какой из них будет лучше использовать.

Я создаю бэкэнд-систему для веб-сайта, чтобы найти почти дубликаты полуструктурированных текстовых данных. Например, каждая запись будет иметь название, местоположение и краткое текстовое описание (<500 слов).

Если не учитывать конкретную языковую реализацию, какой алгоритм будет наилучшим для новой производственной системы?

Выбор между SimHash и MinHash для производственной системы

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Выбор между SimHash и MinHash для производственной системы

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы