Общие причины нанс во время обучения

Я заметил, что частое явление во время тренировокNANвводится.

Часто кажется, что это происходит из-за того, что веса во взрывающихся слоях внутреннего продукта / полностью связанных или сверточных.

Это происходит из-за того, что вычисление градиента взрывается? Или это из-за инициализации веса (если так, почему инициализация веса имеет этот эффект)? Или это, вероятно, вызвано природой входных данных?

Главный вопрос здесь прост:Что является наиболее распространенной причиной появления NAN во время обучения? И во-вторых, каковы некоторые методы борьбы с этим (и почему они работают)?

Ответы на вопрос(4)

Ваш ответ на вопрос