Несмотря на то, что этот алгоритм работает, я все же хотел бы узнать, есть ли «правильный» способ компьютерной науки сделать это с помощью функции pdist. Спасибо и надеюсь, что это поможет кому-то!

Question

Sep 27, 2017, 06:18 PM

Несмотря на то, что этот алгоритм работает, я все же хотел бы узнать, есть ли «правильный» способ компьютерной науки сделать это с помощью функции pdist. Спасибо и надеюсь, что это поможет кому-то!

ычислить матрицу расстояний Jaro Winkler для строк в Python?

У меня есть большой массив строк, введенных вручную (имена и номера записей), и я пытаюсь найти дубликаты в списке, включая дубликаты, которые могут иметь небольшие различия в написании.ответ на аналогичный вопрос предложил использовать функцию pdist от Scipy с пользовательской функцией расстояния. Я попытался реализовать это решение с помощью функции jaro_winkler в пакете Левенштейна. Проблема в том, что функция jaro_winkler требует строкового ввода, тогда как функция pdict, кажется, требует ввода двумерного массива.

Пример:

import numpy as np
from scipy.spatial.distance import pdist
from Levenshtein import jaro_winkler

fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1)
dm = pdist(fname, jaro_winkler)
dm = squareform(dm)

Ожидаемый результат - примерно так:

          Bob  Carl   Kristen  Calr  Doug
Bob       1.0   -        -       -     -
Carl      0.0   1.0      -       -     -
Kristen   0.0   0.46    1.0      -     -
Calr      0.0   0.93    0.46    1.0    -
Doug      0.53  0.0     0.0     0.0   1.0

Фактическая ошибка:

jaro_winkler expected two Strings or two Unicodes

Я предполагаю, что это потому, что функция jaro_winkler видит ndarray вместо строки, и я не уверен, как преобразовать ввод функции в строку в контексте функции pdist.

У кого-нибудь есть предложение разрешить это работать? Заранее спасибо!

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы