Путаница в хешировании, используемая LSH

Question

May 07, 2016, 04:54 PM

nearest-neighbor locality-sensitive-hash hash bigdata python

Путаница в хешировании, используемая LSH

матрицаM является матрицей подписей, которая создается с помощью Minhashing реальных данных, имеет документы в виде столбцов и слова в виде строк. Таким образом, столбец представляет документ.

Теперь написано, что каждая полоса (b в количестве,r в длину) имеет хэшированные столбцы, поэтому столбец попадает в область памяти. Если два столбца попадают в один и тот же интервал для> = 1 полос, то они потенциально похожи.

Так что это означает, что я должен создатьb Hashtables и найтиb независимые хеш-функции? Или достаточно одного, и каждая полоса отправляет свои столбцы в одни и те же наборы блоков (но разве это не отменяет полосы)?

Достаточно ли словаря для хеш-таблицы в этом случае*?

*Является ли словарь Python примером хеш-таблицы?

Путаница в хешировании, используемая LSH

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Путаница в хешировании, используемая LSH

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы