Что является производной от функции активации, используемой в обратном распространении?

я читаюэто документ, и они заявили, что формула корректировки веса такова:

новый вес = старый вес + скорость обучения * delta * df (e) / de * input

df(e)/de часть является производной от функции активации, которая обычно является сигмовидной функцией, такой какtanh, Теперь, для чего это на самом деле? Почему мы даже умножаем с этим? Почему не простоlearning rate * delta * input довольно?

Этот вопрос возник после этого и тесно связан с ним:Почему в нейронной сети обратного распространения должна использоваться нелинейная функция активации?.

Ответы на вопрос(2)

Ваш ответ на вопрос