Общие причины нанс во время обучения
Я заметил, что частое явление во время тренировокNAN
вводится.
Часто кажется, что это происходит из-за того, что веса во взрывающихся слоях внутреннего продукта / полностью связанных или сверточных.
Это происходит из-за того, что вычисление градиента взрывается? Или это из-за инициализации веса (если так, почему инициализация веса имеет этот эффект)? Или это, вероятно, вызвано природой входных данных?
Главный вопрос здесь прост:Что является наиболее распространенной причиной появления NAN во время обучения? И во-вторых, каковы некоторые методы борьбы с этим (и почему они работают)?