Несмотря на то, что этот алгоритм работает, я все же хотел бы узнать, есть ли «правильный» способ компьютерной науки сделать это с помощью функции pdist. Спасибо и надеюсь, что это поможет кому-то!
ычислить матрицу расстояний Jaro Winkler для строк в Python?
У меня есть большой массив строк, введенных вручную (имена и номера записей), и я пытаюсь найти дубликаты в списке, включая дубликаты, которые могут иметь небольшие различия в написании.ответ на аналогичный вопрос предложил использовать функцию pdist от Scipy с пользовательской функцией расстояния. Я попытался реализовать это решение с помощью функции jaro_winkler в пакете Левенштейна. Проблема в том, что функция jaro_winkler требует строкового ввода, тогда как функция pdict, кажется, требует ввода двумерного массива.
Пример:
import numpy as np
from scipy.spatial.distance import pdist
from Levenshtein import jaro_winkler
fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1)
dm = pdist(fname, jaro_winkler)
dm = squareform(dm)
Ожидаемый результат - примерно так:
Bob Carl Kristen Calr Doug
Bob 1.0 - - - -
Carl 0.0 1.0 - - -
Kristen 0.0 0.46 1.0 - -
Calr 0.0 0.93 0.46 1.0 -
Doug 0.53 0.0 0.0 0.0 1.0
Фактическая ошибка:
jaro_winkler expected two Strings or two Unicodes
Я предполагаю, что это потому, что функция jaro_winkler видит ndarray вместо строки, и я не уверен, как преобразовать ввод функции в строку в контексте функции pdist.
У кого-нибудь есть предложение разрешить это работать? Заранее спасибо!