k significa algoritmo de agrupamiento

Question

Mar 24, 2013, 11:11 PM

data-mining pearson cluster-analysis k-means algorithm

k significa algoritmo de agrupamiento

Quiero realizar un k significa análisis de agrupamiento en un conjunto de 10 puntos de datos, cada uno con una matriz de 4 valores numéricos asociados a ellos. Estoy usando el coeficiente de correlación de Pearson como la métrica de la distancia. Hice los dos primeros pasos de la k significa algoritmo de agrupamiento que fueron:

1) Seleccione un conjunto de centros iniciales de k clusters. [Seleccioné dos centros iniciales al azar]

2) Asigne cada objeto al grupo con el centro más cercano. [Utilicé el coeficiente de correlación de Pearson como la métrica de la distancia - vea a continuación]

Ahora necesito ayuda para entender el tercer paso en el algoritmo:

3) Calcular los nuevos centros de los clusters:

donde X, en este caso es un vector de 4 dimensiones y n es el número de puntos de datos en el grupo.

¿Cómo me gustaría calcular C (S) para decir los siguientes datos?

# Cluster 1
A   10  15  20  25  # randomly chosen centre
B   21  33  21  23
C   43  14  23  23
D   37  45  43  49
E   40  43  32  32

# Cluster 2
F  100  102 143 212 #random chosen centre
G  303  213 212 302
H  102  329 203 212
I  32   201 430 48
J  60   99  87  34

El último paso de k significa que el algoritmo es repetir los pasos 2 y 3 hasta que ningún objeto cambie el grupo, lo que es lo suficientemente simple.

Necesito ayuda con el paso 3. Cálculo de los nuevos centros de los clústeres. Si alguien pudiera pasar y explicar cómo calcular el nuevo centro de solo uno de los grupos, eso me ayudaría enormemente.