Как сложить __m256 по горизонтали?
Я хотел бы суммировать компоненты по горизонтали__m256
вектор с использованием инструкций AVX. В SSE я мог бы использовать
_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);
чтобы получить результат в первом компоненте вектора, но это не масштабируется с 256-битной версией функции (_mm256_hadd_ps
).
Каков наилучший способ вычислить горизонтальную сумму__m256
вектор?