R: String Fuzzy Matching usando jarowinkler
Tengo dos vectores de caracteres tipo en R.
Quiero poder comparar la lista de referencia con la lista de caracteres sin formato utilizando jarowinkler y asignar un puntaje de% de similitud. Entonces, por ejemplo, si tengo 10 elementos de referencia y veinte elementos de datos sin procesar, quiero poder obtener la mejor puntuación para la comparación y con qué coincide el algoritmo (es decir, 2 vectores de 10). Si tengo datos sin procesar de tamaño 8 y 10 elementos de referencia, solo debería terminar con un resultado de 2 vectores de 8 elementos con la mejor coincidencia y puntuación por elemento
articulo, partido, emparejado helado, 78, helado
A continuación se muestra mi código, que no es mucho para mirar.
NumItems.Raw = length(words)
NumItems.Ref = length(Ref.Desc)
for (item in words)
{
for (refitem in Ref.Desc)
{
jarowinkler(refitem,item)
# Find Best match Score
# Find Best Item in reference table
# Add both items to vectors
# decrement NumItems.Raw
# Loop
}
}