Melhor técnica de aprendizado de máquina para combinar sequências de produtos
Aqui está um quebra-cabeça ...
Eu tenho dois bancos de dados dos mesmos 50000+ produtos eletrônicos e quero combinar produtos em um banco de dados para aqueles no outro. No entanto, os nomes dos produtos nem sempre são idênticos. Eu tentei usar a distância de Levenshtein para medir a semelhança de string no entanto isso não funcionou. Por exemplo,
-LG 42CS560 42-Inch 1080p 60Hz LCD HDTV
-LG 42 Inch 1080p LCD HDTV
Esses itens são os mesmos, mas seus nomes de produtos variam bastante.
Por outro lado...
-LG 42 Inch 1080p LCD HDTV
-LG 50 Inch 1080p LCD HDTV
Estes são produtos diferentes com nomes de produtos muito semelhantes.
Como devo resolver este problema?