Explicação do gradiente denso do fluxo tensor?

Eu recentemente implementei um modelo e, quando o executei, recebi este aviso:

UserWarning: Converting sparse IndexedSlices to a dense Tensor of unknown shape. 
This may consume a large amount of memory.
"Converting sparse IndexedSlices to a dense Tensor of unknown shape. "

Com algumas configurações de parâmetros semelhantes (incorporando dimensionalidades), de repente o modelo fica ridiculamente lento.

O que esse aviso implica? Parece que algo que eu fiz fez com que todos os gradientes fossem densos e, portanto, o backprop está fazendo cálculos de matriz densaSe houver um problema com o modelo que está causando isso, como posso identificá-lo e corrigi-lo?