¿Cómo sumar __m256 horizontalmente?
Me gustaría sumar horizontalmente los componentes de un__m256
vector utilizando instrucciones AVX. En SSE podría usar
_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);
para obtener el resultado en el primer componente del vector, pero esto no se escala con la versión de 256 bits de la función (_mm256_hadd_ps
).
¿Cuál es la mejor manera de calcular la suma horizontal de un__m256
¿vector?