Confusion in Hashing von LSH verwendet

MatrixM ist die Signaturenmatrix, die durch Minhashing der tatsächlichen Daten erstellt wird und Dokumente als Spalten und Wörter als Zeilen enthält. Eine Spalte repräsentiert also ein Dokument.

Jetzt heißt es, dass jeder Streifen b in Zahl,r in der Länge) hat seine Spalten gehasht, so dass eine Spalte in einen Eimer fällt. Wenn zwei Spalten für> = 1 Streifen in denselben Eimer fallen, sind sie möglicherweise ähnlich.

So das bedeutet, dass ich @ erstellen sollb hashtables und findb unabhängige Hash-Funktionen? Oder ist nur einer genug und jeder Streifen sendet seine Spalten an die gleichen Eimersammlungen (aber würde dies nicht die Streifen aufheben)?

Würde in diesem Fall ein Wörterbuch für eine Hash-Tabelle ausreichen*?

*Ist ein Python-Wörterbuch ein Beispiel für eine Hash-Tabelle?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage