¿Es posible lanzar flotadores directamente a __m128 si están alineados a 16 bytes?
¿Es seguro / posible / aconsejable lanzar flotadores directamente a__m128
Si están 16 bytes alineados?
Me di cuenta usando_mm_load_ps
y_mm_store_ps
"envolver" una matriz en bruto agrega una sobrecarga significativa.
¿Cuáles son los peligros potenciales que debo tener en cuenta?
EDITAR:
En realidad, no hay gastos generales en el uso de las instrucciones de carga y almacenamiento, tengo algunos números mixtos y es por eso que obtuve un mejor rendimiento. Incluso tú pude hacer algunos trucos horribles con direcciones de memoria en bruto en un__m128
Por ejemplo, cuando ejecuté la prueba, tomó DOS VECES EL LARGO PLAZO para completarse sin el_mm_load_ps
instrucción, probablemente retrocediendo a alguna ruta de código seguro.