Алгоритм кластеризации типа k-средних для подпространственной кластеризации смешанных числовых и категориальных наборов данных

Question

Apr 22, 2011, 02:10 AM

search machine-learning nearest-neighbor language-agnostic algorithm

Алгоритм кластеризации типа k-средних для подпространственной кластеризации смешанных числовых и категориальных наборов данных

осилвопрос несколько дней назад о том, как найти ближайших соседей для данного вектора. Мой вектор теперь 21 измерения, и прежде чем я продолжу дальше, потому что я не из области машинного обучения или математики, я начинаю задавать себе некоторые фундаментальные вопросы:

Является ли евклидово расстояние хорошей метрикой для поиска ближайших соседей? Если нет, каковы мои варианты?Кроме того, как можно определить правильный порог для определения k-соседей? Можно ли провести какой-то анализ, чтобы выяснить это значение?Ранее мне предлагалось использовать kd-Trees, но на странице Википедии ясно сказано, что для больших размеров kd-Tree почти эквивалентно поиску методом грубой силы. В таком случае, как лучше всего найти ближайших соседей в наборе данных на миллион точек?

Может кто-нибудь уточнить некоторые (или все) из вышеперечисленных вопросов?

Алгоритм кластеризации типа k-средних для подпространственной кластеризации смешанных числовых и категориальных наборов данных

Ответы на вопрос(13)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Алгоритм кластеризации типа k-средних для подпространственной кластеризации смешанных числовых и категориальных наборов данных

Ответы на вопрос(13)

Ваш ответ на вопрос

Популярные вопросы