¿Cuál es una derivada de la función de activación utilizada en la retropropagación?
Estoy leyendoest document, y declararon que la fórmula de ajuste de peso es esta:
nuevo peso = peso antiguo + tasa de aprendizaje * delta * df (e) / de * input
Losdf(e)/de
part es la derivada de la función de activación, que generalmente es una función sigmoidea comotanh
. Ahora, ¿para qué es esto realmente? ¿Por qué nos estamos multiplicando con eso? ¿Por qué no sololearning rate * delta * input
¿suficiente
Esta pregunta vino después de esta y está estrechamente relacionada con ella: ¿Por qué se debe utilizar una función de activación no lineal en una red neuronal de propagación hacia atrás?.