äufige Ursachen von Nans während des Trainin

Ich habe bemerkt, dass ein häufiges Auftreten während des TrainingsNANs wird vorgestellt.

ft scheint es, als würden Gewichte in das Innere des Produkts / vollständig verbundene Schichten oder Faltungsschichten gespreng

Tritt dies auf, weil die Gradientenberechnung explodiert? Oder liegt es an der Gewichtsinitialisierung (wenn ja, warum hat die Gewichtsinitialisierung diesen Effekt)? Oder liegt es wahrscheinlich an der Art der Eingabedaten?

Die übergeordnete Frage hier ist einfach:Was ist der häufigste Grund für das Auftreten von NANs während des Trainings? Und zweitens, was sind einige Methoden, um dies zu bekämpfen (und warum funktionieren sie)?

Antworten auf die Frage(8)

Ihre Antwort auf die Frage