Como atualizar os parâmetros do modelo com gradientes acumulados?
Estou usando o TensorFlow para criar um modelo de aprendizado profundo. E novo no TensorFlow.
Por algum motivo, meu modelo tem tamanho de lote limitado, então esse tamanho de lote limitado fará com que o modelo tenha uma alta variação.
Então, eu quero usar um truque para aumentar o tamanho do lote. Minha idéia é armazenar os gradientes de cada mini-lote, por exemplo, 64 mini-lotes e, em seguida, somar os gradientes, usar os gradientes médios desses 64 mini-lotes de dados de treinamento para atualizar os parâmetros do modelo.
Isso significa que, para os primeiros 63 mini-lotes, não atualize os parâmetros e, após o 64 mini-lote, atualize os parâmetros do modelo apenas uma vez.
Mas como o TensorFlow é baseado em gráficos, alguém sabe como implementar esse recurso desejado?
Muito obrigado.