Нейронная сеть обратного распространения с RELU
Я пытаюсь реализовать нейронную сеть с RELU.
входной слой -> 1 скрытый слой -> relu -> выходной слой -> слой softmax
Выше архитектура моей нейронной сети. Я смущен по поводу обратного распространения этого relu. Для производной от RELU, если x <= 0, вывод равен 0. Если x> 0, вывод равен 1. Значит ли это, что при вычислении градиента я убиваю градиент прилично, если x <= 0?
Может ли кто-нибудь объяснить обратное распространение моей архитектуры нейронной сети «шаг за шагом»?