Несмотря на то, что этот алгоритм работает, я все же хотел бы узнать, есть ли «правильный» способ компьютерной науки сделать это с помощью функции pdist. Спасибо и надеюсь, что это поможет кому-то!

ычислить матрицу расстояний Jaro Winkler для строк в Python?

У меня есть большой массив строк, введенных вручную (имена и номера записей), и я пытаюсь найти дубликаты в списке, включая дубликаты, которые могут иметь небольшие различия в написании.ответ на аналогичный вопрос предложил использовать функцию pdist от Scipy с пользовательской функцией расстояния. Я попытался реализовать это решение с помощью функции jaro_winkler в пакете Левенштейна. Проблема в том, что функция jaro_winkler требует строкового ввода, тогда как функция pdict, кажется, требует ввода двумерного массива.

Пример:

import numpy as np
from scipy.spatial.distance import pdist
from Levenshtein import jaro_winkler

fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1)
dm = pdist(fname, jaro_winkler)
dm = squareform(dm)

Ожидаемый результат - примерно так:

          Bob  Carl   Kristen  Calr  Doug
Bob       1.0   -        -       -     -
Carl      0.0   1.0      -       -     -
Kristen   0.0   0.46    1.0      -     -
Calr      0.0   0.93    0.46    1.0    -
Doug      0.53  0.0     0.0     0.0   1.0

Фактическая ошибка:

jaro_winkler expected two Strings or two Unicodes

Я предполагаю, что это потому, что функция jaro_winkler видит ndarray вместо строки, и я не уверен, как преобразовать ввод функции в строку в контексте функции pdist.

У кого-нибудь есть предложение разрешить это работать? Заранее спасибо!

Ответы на вопрос(2)

Решение Вопроса

как я продемонстрировал в следующем примере, с расстоянием Левенштейна

import numpy as np    
from Levenshtein import distance
from scipy.spatial.distance import pdist, squareform

# my list of strings
strings = ["hello","hallo","choco"]

# prepare 2 dimensional array M x N (M entries (3) with N dimensions (1)) 
transformed_strings = np.array(strings).reshape(-1,1)

# calculate condensed distance matrix by wrapping the Levenshtein distance function
distance_matrix = pdist(transformed_strings,lambda x,y: distance(x[0],y[0]))

# get square matrix
print(squareform(distance_matrix))

Output:
array([[ 0.,  1.,  4.],
       [ 1.,  0.,  4.],
       [ 4.,  4.,  0.]])
 JestonBlu17 янв. 2019 г., 15:20
отсутствует в конце строки distance_matrix
 Mark W19 окт. 2017 г., 15:45
Спасибо Зефро! Это именно то, что я искал!

у кого похожая проблема. Одно решение, которое я только что нашел, - это извлечь соответствующий код из функции pdist и добавить [0] к входу функции jaro_winkler для вызова строки из массива numpy.

Пример:

X = np.asarray(fname, order='c')
s = X.shape
m, n = s
dm = np.zeros((m * (m - 1)) // 2, dtype=np.double)

k = 0
for i in xrange(0, m - 1):
    for j in xrange(i + 1, m):
        dm[k] = jaro_winkler(X[i][0], X[j][0])
        k = k + 1

dms = squareform(dm)

Несмотря на то, что этот алгоритм работает, я все же хотел бы узнать, есть ли «правильный» способ компьютерной науки сделать это с помощью функции pdist. Спасибо и надеюсь, что это поможет кому-то!

Ваш ответ на вопрос