Cálculo de gradiente para la versión softmax de la pérdida de triplete

He estado tratando de implementar la versión softmax de la pérdida de triplete en Caffe descrita en
Hoffer y Ailon,Aprendizaje métrico profundo utilizando la red Triplet, ICLR 2015.

He intentado esto pero me resulta difícil calcular el gradiente ya que el exponente L2 no es cuadrado.

¿Puede alguien ayudarme aquí?

Respuestas a la pregunta(2)

Su respuesta a la pregunta