normalización por lotes en la red neuronal

Todavía soy bastante nuevo con ANN y solo estaba leyendo el documento de Normalización de lote (http://arxiv.org/pdf/1502.03167.pdf), pero no estoy seguro de que entiendo lo que están haciendo (y más importante, por qué funciona)

Digamos que tengo dos capas L1 y L2, donde L1 produce salidas y las envía a las neuronas en L2. La normalización por lotes solo toma todas las salidas de L1 (es decir, cada salida de cada neurona, obteniendo un vector general de|L1| X |L2| números para una red totalmente conectada), los normaliza para tener una media de 0 y SD de 1, y luego los alimenta a sus respectivas neuronas en L2 (además de aplicar la transformación lineal de gamma y beta que estaban discutiendo en el documento)?

Si este es el caso, ¿cómo está ayudando a la NN? ¿Qué tiene de especial una distribución constante?