¿Cómo utilizar la multiplicación y acumulación de intrínsecos en ARM Cortex-a8?

¿Cómo utilizar los intrínsecos de acumulación múltiple multiplicados por GCC?

float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);

¿Alguien puede explicar qué tres parámetros tengo que pasar a esta función? Me refiero a los registros de origen y destino y ¿qué devuelve la función?

¡¡¡Ayuda!!!

Respuestas a la pregunta(3)

Su respuesta a la pregunta