пакетная нормализация в нейронной сети

Я все еще довольно новичок с ANN, и я только что прочитал документ Batch Normalization (http://arxiv.org/pdf/1502.03167.pdf), но я не уверен, что я получаю то, что они делают (и что более важно, почему это работает)

Допустим, у меня есть два слоя L1 и L2, где L1 производит выходные данные и отправляет их нейронам в L2. Пакетная нормализация просто берет все выходы из L1 (то есть каждый выход из каждого нейрона, получая общий вектор|L1| X |L2| чисел для полностью подключенной сети), нормализует ли их среднее значение 0 и SD 1, а затем передает их соответствующим нейронам в L2 (плюс применяя линейное преобразование гамма и бета, которое они обсуждали в статье)?

Если это действительно так, то как это помогает NN? Что такого особенного в постоянном распределении?

Ответы на вопрос(1)

Ваш ответ на вопрос