Textclustering mit Levenshtein-Abständen

Ich habe einen Satz (2k - 4k) kleiner Zeichenfolgen (3-6 Zeichen) und möchte diese gruppieren. Da ich Strings benutze, gehen frühere Antworten aufWie funktioniert das Clustering (insbesondere das String-Clustering)?, teilte mir das mitLevenshtein Entfernung ist gut als Distanzfunktion für Strings zu verwenden. Da ich die Anzahl der Cluster nicht im Voraus kenne,hierarchisches Clustering ist der Weg zu gehen und nicht k-bedeutet.

Obwohl ich das Problem in seiner abstrakten Form sehe, weiß ich nicht, wie ich es am einfachsten bewerkstelligen kann. Beispielsweise ist MATLAB oder R eine bessere Wahl für die tatsächliche Implementierung von hierarchischem Clustering mit der benutzerdefinierten Funktion (Levenshtein-Abstand). Für beide Software kann man leicht eine Levenshtein-Distanzimplementierung finden. Der Clustering-Teil scheint schwieriger zu sein. Zum BeispielGruppieren von Text in MATLAB berechnet das Entfernungsarray für alle Zeichenfolgen, aber ich kann nicht verstehen, wie das Entfernungsarray verwendet wird, um das Clustering tatsächlich zu erhalten. Können Sie mir irgendeinen von Ihnen zeigen, wie man das hierarchische Clustering in MATLAB oder R mit einer benutzerdefinierten Funktion implementiert?

Antworten auf die Frage(4)

Ihre Antwort auf die Frage