CBOW v.s. пропустить грамматику: зачем инвертировать контекст и целевые слова?

Вэтот На странице сказано, что:

[...] пропускающая грамма инвертирует контексты и цели и пытается предсказать каждое контекстное слово из его целевого слова [...]

Однако, глядя на набор обучающих данных, который он создает, содержимое пары X и Y представляется взаимозаменяемым, как и эти две пары (X, Y):

(quick, brown), (brown, quick)

Так зачем же проводить различие между контекстом и целями, если в конце это одно и то же?

Кроме того, делаяКурс глубокого обучения Udacity на word2vecМне интересно, почему они, кажется, делают разницу между этими двумя подходами в этой проблеме:

Альтернативой скип-грамме является другая модель Word2Vec, называемая CBOW (Continuous Bag of Words). В модели CBOW вместо прогнозирования слова контекста по вектору слова вы прогнозируете слово по сумме всех векторов слова в его контексте. Внедрить и оценить модель CBOW, обученную на наборе данных text8.

Не приведет ли это к таким же результатам?

Ответы на вопрос(2)

Ваш ответ на вопрос