Por que precisamos chamar explicitamente zero_grad ()?

Question

Jun 24, 2017, 04:39 AM

Por que precisamos chamar explicitamente zero_grad ()?

Por que precisamos zerar explicitamente os gradientes no PyTorch? Por que os gradientes não podem ser zerados quandoloss.backward() é chamado? Qual cenário é servido mantendo os gradientes no gráfico e solicitando que o usuário zere explicitamente os gradientes?