Melhor técnica de aprendizado de máquina para combinar sequências de produtos

Aqui está um quebra-cabeça ...

Eu tenho dois bancos de dados dos mesmos 50000+ produtos eletrônicos e quero combinar produtos em um banco de dados para aqueles no outro. No entanto, os nomes dos produtos nem sempre são idênticos. Eu tentei usar a distância de Levenshtein para medir a semelhança de string no entanto isso não funcionou. Por exemplo,

-LG 42CS560 42-Inch 1080p 60Hz LCD HDTV
-LG 42 Inch 1080p LCD HDTV

Esses itens são os mesmos, mas seus nomes de produtos variam bastante.

Por outro lado...

-LG 42 Inch 1080p LCD HDTV
-LG 50 Inch 1080p LCD HDTV

Estes são produtos diferentes com nomes de produtos muito semelhantes.

Como devo resolver este problema?

questionAnswers(2)

yourAnswerToTheQuestion