Problema de rendimiento en python con bucle anidado

Pude mejorar mucho un código escrito en python con numpy debido al producto dot. Ahora todavía tengo una parte del código que todavía es muy lenta. Todavía no entiendo multihilo y si esto podría ayudar aquí. En mi opinión, esto debería ser posible aquí. ¿Tienes una buena idea de qué hacer aquí?

for x1 in range(a**l):
    for x2 in range(a**l):
        for x3 in range(a**l):
            f11 = 0
            cv1 = numpy.ndarray.sum(
            numpy.absolute(numpy.subtract(ws[x1], ws[x2])))
            cv2 = numpy.ndarray.sum(
            numpy.absolute(numpy.subtract(ws[x1], ws[x3])))
            if cv1 == 0:
                f11 += 1
            if cv2 == 0:
                f11 += 1
            re[x1][x2][x3] = 1.0*r/(a**l-2)*(numpy.product(numpy.absolute(
                        numpy.subtract((2*ws[x1]+ws[x2]+ws[x3]), 2)))-f11)
            f11 *= 1.0*(1-r)/2
            re[x1][x2][x3] += f11

Respuestas a la pregunta(2)

Su respuesta a la pregunta