перчатки в эти дни.

меня есть векторы с некоторыми образцами данных, и у каждого вектора есть название категории (Места, Цвета, Имена).

Моя цель - обучить модель, которая принимает новую входную строку и предсказывать, к какой категории она принадлежит. Например, если новый вход «фиолетовый», я должен быть в состоянии предсказать «Цвета» как правильную категорию. Если новый ввод «Калгари», он должен предсказать «Места» как правильную категорию.

['john','jay','dan','nathan','bob']  -> 'Names'
['yellow', 'red','green'] -> 'Colors'
['tokyo','bejing','washington','mumbai'] -> 'Places'

ПОДХОД

Я провел некоторое исследование и наткнулся на

Word2vec, В этой библиотеке есть функции "схожесть" и "сходство", которые я могу использовать. Итак, один подход грубой силы, о котором я подумал, заключается в следующем:Принять новый вклад.

Рассчитайте его сходство с каждым словом в каждом векторе и возьмите среднее значение.Так, например, для ввода «розовый» я могу вычислить его сходство со словами в векторе «имена», взять среднее и затем сделать то же самое для двух других векторов. Вектор, который дает мне наибольшее среднее значение подобия, будет правильным вектором для входных данных.

ВОПРОС

Учитывая мои ограниченные знания в области НЛП и машинного обучения, я не уверен, что это лучший подход, и поэтому я ищу помощь и предложения по лучшим подходам для решения моей проблемы. Я открыт для всех предложений, а также, пожалуйста, укажите на любые ошибки, которые я мог совершить, поскольку я новичок в машинном обучении и мире НЛП.

используйте spacy's ner, и вы также можете обучить spacy модель с вашими данными.

Ответы на вопрос(2)

Ваш ответ на вопрос