Pérdida en tensores enmascarados

Supongamos que tengo logits como

[[4.3, -0.5, -2.7, 0, 0], [0.5, 2.3, 0, 0, 0]]

donde claramente los dos últimos en el primer ejemplo y los últimos tres en el segundo ejemplo están enmascarados y no deberían afectar los cálculos de pérdida y gradiente. ¿Cómo calcular la pérdida de entropía cruzada entre estos logits y las etiquetas correspondientes? Para la cordura, las etiquetas para este ejemplo pueden ser algo así como

[[1, 0, 0, 0, 0], [0, 1, 0, 0, 0]]

(Un problema: Softmax, seguido de log, en los logits también será aplicable para los ceros enmascarados y el método de entropía cruzada de tf considerará también la pérdida de esos elementos).

(Además, puede pensar en el problema de esta manera: tengo logits de diferentes longitudes en un lote, es decir, mis logits fueron de longitud 3 y 2 para eg.1 y eg.2 respectivamente. Lo mismo es seguido por las etiquetas).

Respuestas a la pregunta(3)

Su respuesta a la pregunta