¿Cómo asignar una nueva observación a los clústeres de Kmeans existentes basados en la lógica de centrípodos de clúster más cercana en Python?

Question

Apr 06, 2017, 04:22 PM

scikit-learn python text-classification cluster-analysis k-means

¿Cómo asignar una nueva observación a los clústeres de Kmeans existentes basados en la lógica de centrípodos de clúster más cercana en Python?

Utilicé el siguiente código para crear clústeres de k-means utilizando Scikit learn.

kmean = KMeans(n_clusters=nclusters,n_jobs=-1,random_state=2376,max_iter=1000,n_init=1000,algorithm='full',init='k-means++')

kmean_fit = kmean.fit(clus_data)

También he guardado los centroides usandokmean_fit.cluster_centers_

Luego encurtí la K significa objeto.

filename = pickle_path+'\\'+'_kmean_fit.sav'
pickle.dump(kmean_fit, open(filename, 'wb'))

Para poder cargar el mismo objeto pickle de kmeans y aplicarlo a los datos nuevos cuando llegue, usandokmean_fit.predict().

Preguntas:

¿El enfoque de cargar kmeans pickle object y aplicarkmean_fit.predict() permítame asignar elnueva observación a grupos existentes basado en el centroide de los grupos existentes? ¿Este enfoque solo vuelve a reclutar desde cero los nuevos datos?

Si este método no funciona, ¿cómo asignar la nueva observación a los clústeres existentes dado que ya he guardado los centrípodos del clúster utilizando un código Python eficiente?

PD: Sé que construir un clasificador usando clústeres existentes como variable dependiente es otra forma, pero no quiero hacerlo debido a la falta de tiempo.