CBOW v.s. skip-gram: ¿por qué invertir el contexto y las palabras de destino?

Enesta página, se dice que:

[...] skip-gram invierte contextos y objetivos, e intenta predecir cada palabra de contexto a partir de su palabra objetivo [...]

Sin embargo, al observar el conjunto de datos de entrenamiento que produce, el contenido del par X e Y parece ser intercambiable, ya que esos dos pares de (X, Y):

(quick, brown), (brown, quick)

Entonces, ¿por qué distinguir tanto entre contexto y objetivos si al final es lo mismo?

Además, haciendoEjercicio del curso de aprendizaje profundo de Udacity en word2vec, Me pregunto por qué parecen hacer tanta diferencia entre esos dos enfoques en este problema:

Una alternativa al skip-gram es otro modelo de Word2Vec llamado CBOW (Continuous Bag of Words). En el modelo CBOW, en lugar de predecir una palabra de contexto a partir de un vector de palabras, predice una palabra a partir de la suma de todos los vectores de palabras en su contexto. Implemente y evalúe un modelo CBOW capacitado en el conjunto de datos text8.

¿No daría esto los mismos resultados?

Respuestas a la pregunta(2)

Su respuesta a la pregunta