CBOW v.s. skip-gram: por que inverter o contexto e as palavras-alvo?
Noesta página, diz-se que:
[...] pular grama inverte contextos e alvos, e tenta prever cada palavra de contexto a partir de sua palavra de destino.
No entanto, observando o conjunto de dados de treinamento que ele produz, o conteúdo do par X e Y parece ser intercambiável, pois esses dois pares de (X, Y):
(quick, brown), (brown, quick)
Então, por que distinguir tanto entre contexto e metas, se é a mesma coisa no final?
Além disso, fazendoExercício do curso Deep Learning da Udacity no word2vec, Eu me pergunto por que eles parecem fazer a diferença entre essas duas abordagens nesse problema:
Uma alternativa ao ignorar grama é outro modelo do Word2Vec chamado CBOW (Continuous Bag of Words). No modelo CBOW, em vez de prever uma palavra de contexto a partir de um vetor de palavras, você prevê uma palavra a partir da soma de todos os vetores de palavras em seu contexto. Implemente e avalie um modelo CBOW treinado no conjunto de dados text8.
Isso não produziria os mesmos resultados?