Онлайн-сервис использует таблицы поиска для хранения синонимов, а также истории сопоставления вручную. Это позволяет улучшить автоматизацию сопоставления данных при следующем импорте новых данных.

ужно автоматически сопоставить названия продуктов (камеры, ноутбуки, телевизоры и т. Д.), Которые поступают из разных источников, с каноническим именем в базе данных.

Например"Canon PowerShot a20IS", "НОВЫЙ PowerShot A20 IS от Canon" а также"Цифровая камера Canon PS A20IS" должны все совпадать"Canon PowerShot A20 IS", Я работал с дистанцией Левенштейна с некоторой добавленной эвристикой (удаляя очевидные общие слова, назначая более высокую стоимость изменениям чисел и т. Д.), Что работает в некоторой степени, но, к сожалению, недостаточно хорошо.

Основная проблема заключается в том, что даже однобуквенные изменения в релевантных ключевых словах могут иметь огромное значение, но определить, какие из них являются релевантными, нелегко. Рассмотрим, например, три названия продукта:
Lenovo T400
Lenovo R400
Новый Lenovo T-400, Core 2 Duo
Первые две строки смехотворно похожи по любому стандарту (хорошо, soundex может помочь различать T и R в этом случае, но имена могут также быть 400T и 400R), первая и третья довольно далеки друг от друга, так как строки, но это тот же продукт.

Очевидно, что алгоритм сопоставления не может быть точным на 100%, моя цель - автоматически сопоставлять около 80% имен с высокой достоверностью.

Любые идеи или ссылки высоко ценится

Ответы на вопрос(10)

Ваш ответ на вопрос