Por que precisamos chamar explicitamente zero_grad ()?
Por que precisamos zerar explicitamente os gradientes no PyTorch? Por que os gradientes não podem ser zerados quandoloss.backward()
é chamado? Qual cenário é servido mantendo os gradientes no gráfico e solicitando que o usuário zere explicitamente os gradientes?