Como atualizar os parâmetros do modelo com gradientes acumulados?

Question

Feb 10, 2017, 11:23 AM

Como atualizar os parâmetros do modelo com gradientes acumulados?

Estou usando o TensorFlow para criar um modelo de aprendizado profundo. E novo no TensorFlow.

Por algum motivo, meu modelo tem tamanho de lote limitado, então esse tamanho de lote limitado fará com que o modelo tenha uma alta variação.

Então, eu quero usar um truque para aumentar o tamanho do lote. Minha idéia é armazenar os gradientes de cada mini-lote, por exemplo, 64 mini-lotes e, em seguida, somar os gradientes, usar os gradientes médios desses 64 mini-lotes de dados de treinamento para atualizar os parâmetros do modelo.

Isso significa que, para os primeiros 63 mini-lotes, não atualize os parâmetros e, após o 64 mini-lote, atualize os parâmetros do modelo apenas uma vez.

Mas como o TensorFlow é baseado em gráficos, alguém sabe como implementar esse recurso desejado?

Muito obrigado.