normalização de lotes na rede neural

Eu ainda sou bastante novo na ANN e estava lendo o artigo sobre Normalização em lote (http://arxiv.org/pdf/1502.03167.pdf), mas não tenho certeza se estou conseguindo o que eles estão fazendo (e mais importante, por que funciona)

Então, digamos que eu tenho duas camadas L1 e L2, onde L1 produz saídas e as envia para os neurônios em L2. A normalização de lote apenas toma todas as saídas de L1 (ou seja, todas as saídas de cada neurônio, obtendo um vetor geral de|L1| X |L2| números para uma rede totalmente conectada), normaliza-os para ter uma média de 0 e DP de 1 e depois os alimenta com seus respectivos neurônios em L2 (além de aplicar a transformação linear de gama e beta que eles estavam discutindo no artigo)?

Se esse é realmente o caso, como isso está ajudando o NN? o que há de tão especial em uma distribuição constante?

questionAnswers(1)

yourAnswerToTheQuestion