R: Correspondência difusa de string usando jarowinkler
Eu tenho dois vetores do tipo caractere em R.
Quero poder comparar a lista de referências à lista de caracteres brutos usando jarowinkler e atribuir uma pontuação de similaridade%. Por exemplo, se eu tiver 10 itens de referência e vinte itens de dados brutos, desejo obter a melhor pontuação para a comparação e com o que o algoritmo o correspondeu (dois vetores de 10). Se eu tiver dados brutos dos itens de referência de tamanho 8 e 10, só devo terminar com um resultado de 2 vetores de 8 itens com a melhor correspondência e pontuação por item
item, Combine, matched_to gelo, 78, sorvete
Abaixo está o meu código, que não é muito para olhar.
NumItems.Raw = length(words)
NumItems.Ref = length(Ref.Desc)
for (item in words)
{
for (refitem in Ref.Desc)
{
jarowinkler(refitem,item)
# Find Best match Score
# Find Best Item in reference table
# Add both items to vectors
# decrement NumItems.Raw
# Loop
}
}