Alternatywa dla Levenshtein i Trigram

Question

Nov 23, 2013, 02:28 PM

Alternatywa dla Levenshtein i Trigram

Powiedz, że w mojej bazie danych mam dwa następujące ciągi:

(1) 'Levi Watkins Learning Center - Alabama State University'
(2) 'ETH Library'

Moje oprogramowanie otrzymuje darmowe dane tekstowe ze źródła danych i powinno dopasować te darmowe teksty do wstępnie zdefiniowanych ciągów w bazie danych (tych powyżej).

Na przykład, jeśli oprogramowanie otrzyma ciąg'Alabama University', powinien rozpoznać, że jest to bardziej podobne do(1) niż jest(2).

Początkowo myślałem o użyciu dobrze znanegometryka ciągu jak Levenshtein-Damerau lub Trigrams, ale prowadzi to do niechcianych wyników, jak widać tutaj:

http://fuzzy-string.com/Compare/Transform.aspx?r=Levi+Watkins+Learning+Center+-+Alabama+State+University&q=Alabama+University

http://fuzzy-string.com/Compare/Transform.aspx?r=ETH+Library&q=Alabama+University

Difference to (1): 37
Difference to (2): 14

(2) wygrywa, ponieważ jest znacznie krótszy niż(1), nawet jeśli(1) zawiera oba słowa (Alabama iUniversity) szukanego ciągu.

Próbowałem również z Trigrams (używając biblioteki JavaScript fuzzySet), ale otrzymałem podobne wyniki.

Czy istnieje metryka ciągu, która rozpoznałaby podobieństwo szukanego ciągu do(1)?

questionAnswers(6)

Popularne pytania

0 odpowiedzi

Dlaczego brak jest reprezentowany jako null?

0 odpowiedzi

Przekazywanie parametrów z Android FragmentActivity do Fragment

0 odpowiedzi

Łączenie ramek danych pand według nazw kolumn

0 odpowiedzi

php - przekazanie operatora do funkcji

0 odpowiedzi

Krótki sposób na ucieczkę z HTML w Bashu?

Jesteś bardzo aktywny! To świetnie!

Alternatywa dla Levenshtein i Trigram

questionAnswers(6)

yourAnswerToTheQuestion

Popularne pytania