k oznacza algorytm grupowania
Chcę wykonać k oznacza analizę skupień na zestawie 10 punktów danych, z których każdy ma tablicę powiązanych z nimi 4 wartości liczbowych. Używam współczynnika korelacji Pearsona jako metryki odległości. Zrobiłem dwa pierwsze kroki k oznacza algorytm grupowania, który był:
1) Wybierz zestaw początkowych centrów k klastrów. [Wybrałem losowo dwa początkowe centra]
2) Przypisz każdy obiekt do klastra z najbliższym centrum. [Użyłem współczynnika korelacji Pearsona jako metryki odległości - patrz poniżej]
Teraz potrzebuję pomocy w zrozumieniu trzeciego kroku algorytmu:
3) Oblicz nowe centra klastrów:
gdzie X, w tym przypadku jest wektorem 4-wymiarowym, a n jest liczbą punktów danych w klastrze.
Jak mogę obliczyć C (S) dla następujących danych?
# Cluster 1
A 10 15 20 25 # randomly chosen centre
B 21 33 21 23
C 43 14 23 23
D 37 45 43 49
E 40 43 32 32
# Cluster 2
F 100 102 143 212 #random chosen centre
G 303 213 212 302
H 102 329 203 212
I 32 201 430 48
J 60 99 87 34
Ostatnim krokiem algorytmu k oznacza powtórzenie kroku 2 i 3, dopóki żaden obiekt nie zmieni klastra, co jest dość proste.
Potrzebuję pomocy w kroku 3. Obliczanie nowych centrów klastrów. Gdyby ktoś mógł przejść i wyjaśnić, jak obliczyć nowe centrum tylko jednego z klastrów, bardzo by mi to pomogło.