Как сложить __m256 по горизонтали?

Я хотел бы суммировать компоненты по горизонтали__m256 вектор с использованием инструкций AVX. В SSE я мог бы использовать

_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);

чтобы получить результат в первом компоненте вектора, но это не масштабируется с 256-битной версией функции (_mm256_hadd_ps).

Каков наилучший способ вычислить горизонтальную сумму__m256 вектор?

Ответы на вопрос(2)

Ваш ответ на вопрос