Prozentuale Ähnlichkeitsanalyse (Java)

Question

Mar 06, 2010, 04:58 PM

Prozentuale Ähnlichkeitsanalyse (Java)

Ich habe folgende Situation:

String a = "Ein Web-Crawler ist ein Computerprogramm, das automatisch im Internet surft."; String b = "Web Crawler-Computerprogramm durchsucht das World Wide Web";

Gibt es eine Idee oder einen Standardalgorithmus, um den prozentualen Ähnlichkeitsgrad zu berechnen?

Im obigen Fall sollte die durch manuelle Suche geschätzte Ähnlichkeit beispielsweise 90% ++ betragen.

Meine Idee ist, beide Zeichenfolgen zu tokenisieren und die Anzahl der übereinstimmenden Token zu vergleichen. So etwas wie (7 Token / 1 0 Token) * 100. Aber natürlich ist es für diese Methode überhaupt nicht effektiv. Vergleichen Sie die Anzahl der übereinstimmenden Zeichen scheint auch nicht effektiv zu sein ....

Kann mir jemand ein paar Richtlinien geben ???

Oben ist ein Teil meines Projekts, Plagiat-Analysator.

Daher sind die übereinstimmenden Wörter ohne Synonyme genau gleich.

In diesem Fall geht es nur darum, wie ein ziemlich genauer Prozentsatz der Ähnlichkeit berechnet wird.

Vielen Dank für jede Hilfe.