R: Нечеткое совпадение строк с использованием jarowinkler
У меня есть два вектора типа символа в R.
Я хочу иметь возможность сравнивать список ссылок со списком необработанных символов, используя jarowinkler, и назначать процент сходства. Так, например, если у меня есть 10 эталонных элементов и двадцать необработанных элементов данных, я хочу иметь возможность получить лучший результат для сравнения и то, чему соответствует алгоритм (так, 2 вектора из 10). Если у меня есть исходные данные размером 8 и 10 эталонных элементов, я должен получить только 2-х векторный результат из 8 элементов с лучшим соответствием и количеством баллов за элемент.
вещь, матч, matched_to лед, 78, мороженое
Ниже приведен мой код, на который не так много нужно смотреть.
NumItems.Raw = length(words)
NumItems.Ref = length(Ref.Desc)
for (item in words)
{
for (refitem in Ref.Desc)
{
jarowinkler(refitem,item)
# Find Best match Score
# Find Best Item in reference table
# Add both items to vectors
# decrement NumItems.Raw
# Loop
}
}