CBOW v.s. Überspringen-Gramm: Warum Kontext und Zielwörter umkehren?

ImDie Seite, es wird gesagt, dass:

[...] skip-gram invertiert Kontexte und Ziele und versucht, jedes Kontextwort aus seinem Zielwort [...] vorherzusagen.

Betrachtet man jedoch den von ihm erzeugten Trainingsdatensatz, so scheint der Inhalt des X- und Y-Paares austauschbar zu sein, da diese beiden Paare von (X, Y):

(quick, brown), (brown, quick)

So, warum so viel zwischen Kontext und Zielen unterscheiden, wenn es am Ende dasselbe ist?

Auch tun Udacitys Deep Learning Kurs Übung zu word2vec, Ich frage mich, warum sie bei diesem Problem den Unterschied zwischen diesen beiden Ansätzen zu machen scheinen:

Eine Alternative zu Skip-Gram ist ein anderes Word2Vec-Modell namens CBOW (Continuous Bag of Words). Anstatt ein Kontextwort aus einem Wortvektor vorherzusagen, sagen Sie im CBOW-Modell ein Wort aus der Summe aller Wortvektoren in seinem Kontext voraus. Implementieren und evaluieren Sie ein CBOW-Modell, das auf dem text8-Datensatz trainiert wurde.

Würde dies nicht zu den gleichen Ergebnissen führen?

Antworten auf die Frage(4)

Ihre Antwort auf die Frage