Dlaczego wagi sieci neuronowych powinny być inicjowane liczbami losowymi?

Question

Nov 17, 2013, 06:34 AM

artificial-intelligence neural-network machine-learning mathematical-optimization gradient-descent

Dlaczego wagi sieci neuronowych powinny być inicjowane liczbami losowymi?

Próbuję zbudować sieć neuronową od podstaw. W całej literaturze dotyczącej sztucznej inteligencji istnieje zgoda co do tego, że wagi powinny być inicjowane liczbami losowymi, aby sieć szybciej się zbiegała.

Ale dlaczego początkowe wagi sieci neuronowych są inicjowane jako liczby losowe?

Przeczytałem gdzieś, że ma to na celu „złamanie symetrii”, a to sprawia, że sieć neuronowa uczy się szybciej. Jak złamanie symetrii sprawia, że uczy się szybciej?

Czy inicjalizacja wag na 0 nie byłaby lepszym pomysłem? W ten sposób wagi byłyby w stanie szybciej znaleźć swoje wartości (dodatnie lub ujemne)?

Czy istnieje jakaś inna filozofia leżąca u podstaw losowania wag, z wyjątkiem nadziei, że po zainicjowaniu będą bliskie ich optymalnym wartościom?