Perda em tensores mascarados

Suponha que eu tenha logits como

[[4.3, -0.5, -2.7, 0, 0], [0.5, 2.3, 0, 0, 0]]

onde claramente os dois últimos no primeiro exemplo e os três últimos no segundo exemplo são mascarados e não devem afetar os cálculos de perda e gradiente. Como calcular a perda de entropia cruzada entre esses logits e os rótulos correspondentes? Por sanidade, os rótulos deste exemplo podem ser algo como

[[1, 0, 0, 0, 0], [0, 1, 0, 0, 0]]

(Um problema: o Softmax, seguido do log, nos logits também será aplicável aos zeros mascarados e o método de entropia cruzada do tf também considerará a perda para esses elementos.)

(Além disso, você pode pensar no problema da seguinte maneira: tenho logits de comprimentos variados em um lote, ou seja, meus logits eram de tamanho 3 e 2 para, por exemplo, 1 e 2, respectivamente. O mesmo é seguido pelos rótulos.)

questionAnswers(3)

yourAnswerToTheQuestion