¿Vecinos más cercanos en datos de alta dimensión?

Question

Apr 22, 2011, 02:10 AM

algorithm language-agnostic search machine-learning nearest-neighbor

¿Vecinos más cercanos en datos de alta dimensión?

He pedido unapregunt unos días atrás sobre cómo encontrar los vecinos más cercanos para un vector dado. Mi vector ahora tiene 21 dimensiones y antes de continuar, como no soy del dominio de Machine Learning ni Math, estoy empezando a hacerme algunas preguntas fundamentales:

¿Es la distancia euclidiana una buena métrica para encontrar a los vecinos más cercanos en primer lugar? ¿Si no es así, cuáles son mis opciones Además, ¿cómo se decide el umbral correcto para determinar los k-vecinos? ¿Hay algún análisis que se pueda hacer para calcular este valor? Anteriormente, me sugirieron usar kd-Trees, pero la página de Wikipedia dice claramente que para las dimensiones altas, kd-Tree es casi equivalente a una búsqueda de fuerza bruta. En ese caso, ¿cuál es la mejor manera de encontrar vecinos más cercanos en un conjunto de datos de un millón de puntos de manera eficiente?

¿Alguien puede aclarar algunas (o todas) de las preguntas anteriores?