clustering auf sehr großer spärlicher Matrix?

Ich versuche, auf einer sehr großen Matrix ein (k-means) Clustering durchzuführen.

Die Matrix ist ungefähr 500000 Zeilen x 4000 Spalten groß und dennoch sehr dünn (nur ein paar "1" -Werte pro Zeile). Ich möchte ungefähr 2000 Cluster erhalten.

Ich habe zwei Fragen: - Kann jemand eine Open-Source-Plattform oder ein Open-Source-Tool dafür empfehlen (vielleicht mit k-means, vielleicht mit etwas Besserem)? - Wie kann ich die Zeit abschätzen, die der Algorithmus zum Beenden benötigt? Ich habe es einmal mit weka versucht, aber den Job nach ein paar Tagen abgebrochen, weil ich nicht sagen konnte, wie viel Zeit es dauern würde.

Vielen Dank

Antworten auf die Frage(6)

Ihre Antwort auf die Frage