O que é um derivado da função de ativação usada na retropropagação?

Estou lendoest documento e declararam que a fórmula de ajuste de peso é a seguinte:

novo peso = peso antigo + taxa de aprendizado * delta * df (e) / de * input

Odf(e)/de part é a derivada da função de ativação, que geralmente é uma função sigmóide comotanh. Agora, o que é isso realmente? Por que estamos multiplicando isso? Por que não é apenaslearning rate * delta * input suficiente

Esta pergunta veio após esta e está intimamente relacionada a ela:Por que uma função de ativação não linear deve ser usada em uma rede neural de retropropagação?.

questionAnswers(4)

yourAnswerToTheQuestion