Алгоритм кластеризации типа k-средних для подпространственной кластеризации смешанных числовых и категориальных наборов данных

осилвопрос несколько дней назад о том, как найти ближайших соседей для данного вектора. Мой вектор теперь 21 измерения, и прежде чем я продолжу дальше, потому что я не из области машинного обучения или математики, я начинаю задавать себе некоторые фундаментальные вопросы:

Является ли евклидово расстояние хорошей метрикой для поиска ближайших соседей? Если нет, каковы мои варианты?Кроме того, как можно определить правильный порог для определения k-соседей? Можно ли провести какой-то анализ, чтобы выяснить это значение?Ранее мне предлагалось использовать kd-Trees, но на странице Википедии ясно сказано, что для больших размеров kd-Tree почти эквивалентно поиску методом грубой силы. В таком случае, как лучше всего найти ближайших соседей в наборе данных на миллион точек?

Может кто-нибудь уточнить некоторые (или все) из вышеперечисленных вопросов?

Ответы на вопрос(13)

Ваш ответ на вопрос