CBOW v.s. пропустить грамматику: зачем инвертировать контекст и целевые слова?
Вэтот На странице сказано, что:
[...] пропускающая грамма инвертирует контексты и цели и пытается предсказать каждое контекстное слово из его целевого слова [...]
Однако, глядя на набор обучающих данных, который он создает, содержимое пары X и Y представляется взаимозаменяемым, как и эти две пары (X, Y):
(quick, brown), (brown, quick)
Так зачем же проводить различие между контекстом и целями, если в конце это одно и то же?
Кроме того, делаяКурс глубокого обучения Udacity на word2vecМне интересно, почему они, кажется, делают разницу между этими двумя подходами в этой проблеме:
Альтернативой скип-грамме является другая модель Word2Vec, называемая CBOW (Continuous Bag of Words). В модели CBOW вместо прогнозирования слова контекста по вектору слова вы прогнозируете слово по сумме всех векторов слова в его контексте. Внедрить и оценить модель CBOW, обученную на наборе данных text8.
Не приведет ли это к таким же результатам?