Путаница в хешировании, используемая LSH

матрицаM является матрицей подписей, которая создается с помощью Minhashing реальных данных, имеет документы в виде столбцов и слова в виде строк. Таким образом, столбец представляет документ.

Теперь написано, что каждая полоса (b в количестве,r в длину) имеет хэшированные столбцы, поэтому столбец попадает в область памяти. Если два столбца попадают в один и тот же интервал для> = 1 полос, то они потенциально похожи.

Так что это означает, что я должен создатьb Hashtables и найтиb независимые хеш-функции? Или достаточно одного, и каждая полоса отправляет свои столбцы в одни и те же наборы блоков (но разве это не отменяет полосы)?

Достаточно ли словаря для хеш-таблицы в этом случае*?

*Является ли словарь Python примером хеш-таблицы?

Ответы на вопрос(1)

Ваш ответ на вопрос