O que é um derivado da função de ativação usada na retropropagação?
Estou lendoest documento e declararam que a fórmula de ajuste de peso é a seguinte:
novo peso = peso antigo + taxa de aprendizado * delta * df (e) / de * input
Odf(e)/de
part é a derivada da função de ativação, que geralmente é uma função sigmóide comotanh
. Agora, o que é isso realmente? Por que estamos multiplicando isso? Por que não é apenaslearning rate * delta * input
suficiente
Esta pergunta veio após esta e está intimamente relacionada a ela:Por que uma função de ativação não linear deve ser usada em uma rede neural de retropropagação?.