¿Cómo sumar __m256 horizontalmente?

Me gustaría sumar horizontalmente los componentes de un__m256 vector utilizando instrucciones AVX. En SSE podría usar

_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);

para obtener el resultado en el primer componente del vector, pero esto no se escala con la versión de 256 bits de la función (_mm256_hadd_ps).

¿Cuál es la mejor manera de calcular la suma horizontal de un__m256 ¿vector?

Respuestas a la pregunta(2)

Su respuesta a la pregunta