¿Cuál es una derivada de la función de activación utilizada en la retropropagación?

Estoy leyendoest document, y declararon que la fórmula de ajuste de peso es esta:

nuevo peso = peso antiguo + tasa de aprendizaje * delta * df (e) / de * input

Losdf(e)/de part es la derivada de la función de activación, que generalmente es una función sigmoidea comotanh. Ahora, ¿para qué es esto realmente? ¿Por qué nos estamos multiplicando con eso? ¿Por qué no sololearning rate * delta * input ¿suficiente

Esta pregunta vino después de esta y está estrechamente relacionada con ella: ¿Por qué se debe utilizar una función de activación no lineal en una red neuronal de propagación hacia atrás?.

Respuestas a la pregunta(4)

Su respuesta a la pregunta