CBOW v.s. skip-gram: por que inverter o contexto e as palavras-alvo?

Noesta página, diz-se que:

[...] pular grama inverte contextos e alvos, e tenta prever cada palavra de contexto a partir de sua palavra de destino.

No entanto, observando o conjunto de dados de treinamento que ele produz, o conteúdo do par X e Y parece ser intercambiável, pois esses dois pares de (X, Y):

(quick, brown), (brown, quick)

Então, por que distinguir tanto entre contexto e metas, se é a mesma coisa no final?

Além disso, fazendoExercício do curso Deep Learning da Udacity no word2vec, Eu me pergunto por que eles parecem fazer a diferença entre essas duas abordagens nesse problema:

Uma alternativa ao ignorar grama é outro modelo do Word2Vec chamado CBOW (Continuous Bag of Words). No modelo CBOW, em vez de prever uma palavra de contexto a partir de um vetor de palavras, você prevê uma palavra a partir da soma de todos os vetores de palavras em seu contexto. Implemente e avalie um modelo CBOW treinado no conjunto de dados text8.

Isso não produziria os mesmos resultados?

questionAnswers(2)

yourAnswerToTheQuestion