Heurísticas hierárquicas de clusterização

Eu quero explorar as relações entre itens de dados em uma grande variedade. Cada item de dados representado pelo vetor multidimensional. Primeiro de tudo, eu decidi usar clusterização. Estou interessado em encontrar relações hierárquicas entre clusters (grupos de vetores de dados). Eu sou capaz de calcular a distância entre meus vetores. Então, no primeiro passo, eu estou encontrando árvore de abrangência mínima. Depois disso, preciso agrupar vetores de dados de acordo com os links na minha árvore de abrangência. Mas nesta etapa estou perturbado -como combinar vetores diferentes em clusters hierárquicos? Estou usando heurística:se dois vetores vinculados e a distância entre eles for muito pequena - isso significa que eles estão no mesmo cluster, se dois wectors estiverem vinculados, mas a distância entre eles for maior que o limite - isso significa que eles estão em clusters diferentes com cluster raiz comum.

Mas talvez haja uma solução melhor?

Obrigad

P.S. Obrigado a todos!

Na verdade, tentei usar o k-means e algumas variações do CLOPE, mas não obtive bons resultado

ntão, agora eu sei que os clusters do meu conjunto de dados realmente têm uma estrutura complexa (muito mais complexa que as n-esferas

É por isso que eu quero usar clusterização hierárquica. Além disso Acho que clusters são parecidos com concatenações em n dimensõ (como corrente 3D ou 2D). Então eu usoúnico lin estratégia. Mas estou incomodado - como combinar diferentes clusters entre si em que situação devo criar um cluster raiz comum e em quais situações devo combinar todos os subclusters em um cluste). Estou usando uma estratégia tão simples:

Se os clusters (ou vetores) estiverem muito próximos um do outro - sou capaz de combinar o conteúdo deles em um cluster (regulado pelo limite) Se os clusters (ou vetores) estiverem muito distantes um do outro - estou criando um cluster raiz e os colocando nele

Mas usando essa estratégia eu tenho muito grandes árvores de aglomerados. Estou tentando encontrar um limite satisfatório. Mas talvez haja uma estratégia melhor para gerar a árvore de cluster?

Aqui está uma imagem simples, descreve minha pergunta:

questionAnswers(2)

yourAnswerToTheQuestion