Como atribuir uma nova observação aos clusters Kmeans existentes com base na lógica de centríodo de cluster mais próxima em python?

Question

Apr 06, 2017, 04:22 PM

python scikit-learn cluster-analysis k-means text-classification

Como atribuir uma nova observação aos clusters Kmeans existentes com base na lógica de centríodo de cluster mais próxima em python?

Usei o código abaixo para criar clusters k-means usando o Scikit learn.

kmean = KMeans(n_clusters=nclusters,n_jobs=-1,random_state=2376,max_iter=1000,n_init=1000,algorithm='full',init='k-means++')

kmean_fit = kmean.fit(clus_data)

Eu também salvei os centróides usandokmean_fit.cluster_centers_

Em seguida, pintei o K significa objeto.

filename = pickle_path+'\\'+'_kmean_fit.sav'
pickle.dump(kmean_fit, open(filename, 'wb'))

Para que eu possa carregar o mesmo objeto de picles kmeans e aplicá-lo a novos dados quando vier, usandokmean_fit.predict().

Questões :

A abordagem de carregar o objeto de picles kmeans e aplicarkmean_fit.predict() permita-me atribuir onova observação para clusters existentes com base no centróide dos clusters existentes? Essa abordagem apenas reclassifica do zero os novos dados?

Se esse método não funcionar, como atribuir a nova observação a clusters existentes, já que eu já salvei os centríodos de cluster usando código python eficaz?

PS: Eu sei que construir um classifer usando clusters existentes como variável dependente é outra maneira, mas não quero fazer isso por causa da restrição de tempo.