k-означает пустой кластер
Я пытаюсь реализоватьK-средства как домашнее задание. Мой лист упражнений дает мне следующее замечание относительно пустых центров:
During the iterations, if any of the cluster centers has no data points associated with it, replace it with a random data point.
Это меня немного смущает, во-первых, Википедия или другие источники, которые я читаю, вообще не упоминают об этом. Кроме того, я прочитал о проблеме с «выбором хорошего k для ваших данных». - Как мой алгоритм должен сходиться, если я начну устанавливать новые центры для кластера, которые были пусты.
Если я игнорирую пустые кластеры, я схожусь после 30-40 итераций. Это неправильно игнорировать пустые кластеры?