документы (и, возможно, другие модели документов в Scikit-Learn).
ользовал приведенный ниже код для создания кластеров k-средних с использованием Scikit learn.
kmean = KMeans(n_clusters=nclusters,n_jobs=-1,random_state=2376,max_iter=1000,n_init=1000,algorithm='full',init='k-means++')
kmean_fit = kmean.fit(clus_data)
Я также сохранил центроиды, используяkmean_fit.cluster_centers_
Затем я мариновал К означает объект.
filename = pickle_path+'\\'+'_kmean_fit.sav'
pickle.dump(kmean_fit, open(filename, 'wb'))
Так что я могу загрузить тот же объект Kmeans Pickle и применить его к новым данным, когда он придет, используяkmean_fit.predict().
Вопросы :
Будет ли подходить к загрузке засоленного объекта и применятьkmean_fit.predict()
позвольте мне назначитьновое наблюдение для существующих кластеров на основе центроида существующих кластеров? Этот подход просто повторяет с нуля на новые данные?
Если этот метод не сработает, как назначить новое наблюдение существующим кластерам, учитывая, что я уже сохранил центриоды кластера, используя эффективный код Python?
PS: я знаю, что создание классификатора с использованием существующих кластеров в качестве зависимой переменной - это еще один способ, но я не хочу этого делать из-за нехватки времени.