Batch-Normalisierung im neuronalen Netzwerk
Ich bin noch ziemlich neu bei ANN und habe gerade das Batch Normalization Paper gelesen http: //arxiv.org/pdf/1502.03167.pd), aber ich bin mir nicht sicher, was sie tun (und was noch wichtiger ist, warum es funktioniert)
Angenommen, ich habe zwei Schichten L1 und L2, in denen L1 Ausgaben erzeugt und diese an die Neuronen in L2 sendet. Die Batch-Normalisierung nimmt nur alle Ausgaben von L1 (d. H. Jede einzelne Ausgabe von jedem einzelnen Neuron, wobei ein Gesamtvektor von @ erhalten wird|L1| X |L2|
-Zahlen für ein vollständig verbundenes Netzwerk), normalisiert sie auf einen Mittelwert von 0 und eine SD von 1 und führt sie dann ihren jeweiligen Neuronen in L2 zu (plus Anwendung der linearen Transformation von Gamma und Beta, die sie in der Veröffentlichung besprochen haben)?
Wenn dies tatsächlich der Fall ist, wie hilft dies dem NN? Was ist das Besondere an einer konstanten Verteilung?