Что является производной от функции активации, используемой в обратном распространении?
я читаюэто документ, и они заявили, что формула корректировки веса такова:
новый вес = старый вес + скорость обучения * delta * df (e) / de * input
df(e)/de
часть является производной от функции активации, которая обычно является сигмовидной функцией, такой какtanh
, Теперь, для чего это на самом деле? Почему мы даже умножаем с этим? Почему не простоlearning rate * delta * input
довольно?
Этот вопрос возник после этого и тесно связан с ним:Почему в нейронной сети обратного распространения должна использоваться нелинейная функция активации?.