Путаница в хешировании, используемая LSH
матрицаM
является матрицей подписей, которая создается с помощью Minhashing реальных данных, имеет документы в виде столбцов и слова в виде строк. Таким образом, столбец представляет документ.
Теперь написано, что каждая полоса (b
в количестве,r
в длину) имеет хэшированные столбцы, поэтому столбец попадает в область памяти. Если два столбца попадают в один и тот же интервал для> = 1 полос, то они потенциально похожи.
Так что это означает, что я должен создатьb
Hashtables и найтиb
независимые хеш-функции? Или достаточно одного, и каждая полоса отправляет свои столбцы в одни и те же наборы блоков (но разве это не отменяет полосы)?
Достаточно ли словаря для хеш-таблицы в этом случае*?