¿Es posible lanzar flotadores directamente a __m128 si están alineados a 16 bytes?

¿Es seguro / posible / aconsejable lanzar flotadores directamente a__m128 Si están 16 bytes alineados?

Me di cuenta usando_mm_load_ps y_mm_store_ps "envolver" una matriz en bruto agrega una sobrecarga significativa.

¿Cuáles son los peligros potenciales que debo tener en cuenta?

EDITAR:

En realidad, no hay gastos generales en el uso de las instrucciones de carga y almacenamiento, tengo algunos números mixtos y es por eso que obtuve un mejor rendimiento. Incluso tú pude hacer algunos trucos horribles con direcciones de memoria en bruto en un__m128 Por ejemplo, cuando ejecuté la prueba, tomó DOS VECES EL LARGO PLAZO para completarse sin el_mm_load_ps instrucción, probablemente retrocediendo a alguna ruta de código seguro.

Respuestas a la pregunta(5)

Su respuesta a la pregunta