Clustering eines sehr großen Datensatzes in R

Question

Feb 24, 2014, 11:24 AM

data-mining r bigdata machine-learning cluster-analysis

Clustering eines sehr großen Datensatzes in R

Ich habe einen Datensatz bestehend aus 70.000 numerischen Werten, die Entfernungen von 0 bis 50 darstellen, und ich möchte diese Zahlen gruppieren. Wenn ich jedoch den klassischen Clustering-Ansatz versuche, müsste ich eine Distanzmatrix von 70.000 × 70.000 erstellen, die die Abstände zwischen jeweils zwei Zahlen in meinem Datensatz darstellt, die nicht in den Speicher passen. Daher habe ich mich gefragt, ob dies der Fall ist Gibt es eine clevere Möglichkeit, dieses Problem zu lösen, ohne geschichtete Stichproben zu erstellen? Ich habe auch BigMemory- und Big Analytics-Bibliotheken in R ausprobiert, kann die Daten aber immer noch nicht in den Speicher einpassen