Онлайн-сервис использует таблицы поиска для хранения синонимов, а также истории сопоставления вручную. Это позволяет улучшить автоматизацию сопоставления данных при следующем импорте новых данных.

Question

Feb 27, 2009, 04:37 PM

levenshtein-distance fuzzy-search string-matching

Онлайн-сервис использует таблицы поиска для хранения синонимов, а также истории сопоставления вручную. Это позволяет улучшить автоматизацию сопоставления данных при следующем импорте новых данных.

ужно автоматически сопоставить названия продуктов (камеры, ноутбуки, телевизоры и т. Д.), Которые поступают из разных источников, с каноническим именем в базе данных.

Например"Canon PowerShot a20IS", "НОВЫЙ PowerShot A20 IS от Canon" а также"Цифровая камера Canon PS A20IS" должны все совпадать"Canon PowerShot A20 IS", Я работал с дистанцией Левенштейна с некоторой добавленной эвристикой (удаляя очевидные общие слова, назначая более высокую стоимость изменениям чисел и т. Д.), Что работает в некоторой степени, но, к сожалению, недостаточно хорошо.

Основная проблема заключается в том, что даже однобуквенные изменения в релевантных ключевых словах могут иметь огромное значение, но определить, какие из них являются релевантными, нелегко. Рассмотрим, например, три названия продукта:
Lenovo T400
Lenovo R400
Новый Lenovo T-400, Core 2 Duo
Первые две строки смехотворно похожи по любому стандарту (хорошо, soundex может помочь различать T и R в этом случае, но имена могут также быть 400T и 400R), первая и третья довольно далеки друг от друга, так как строки, но это тот же продукт.

Очевидно, что алгоритм сопоставления не может быть точным на 100%, моя цель - автоматически сопоставлять около 80% имен с высокой достоверностью.

Любые идеи или ссылки высоко ценится

Ответы на вопрос(10)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Ответы на вопрос(10)

Ваш ответ на вопрос

Популярные вопросы