Najlepsza technika uczenia maszynowego do dopasowywania ciągów produktów
Oto puzzle ...
Mam dwie bazy danych tego samego 50000+ produktów elektronicznych i chcę dopasować produkty w jednej bazie danych do tych w drugiej. Nazwy produktów nie zawsze są jednakowe. Próbowałem użyć odległości Levenshteina do pomiaru podobieństwa ciągu, ale to nie zadziałało. Na przykład,
-LG 42CS560 42-Inch 1080p 60Hz LCD HDTV
-LG 42 Inch 1080p LCD HDTV
Te elementy są takie same, ale ich nazwy produktów bardzo się różnią.
Z drugiej strony...
-LG 42 Inch 1080p LCD HDTV
-LG 50 Inch 1080p LCD HDTV
Są to różne produkty o bardzo podobnych nazwach produktów.
Jak mam rozwiązać ten problem?