Wie man __m256 horizontal summiert?

Ich möchte die Komponenten von a horizontal summieren__m256 Vektor mit AVX-Anweisungen. In SSE könnte ich verwenden

_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);

um das Ergebnis bei der ersten Komponente des Vektors zu erhalten, aber dies skaliert nicht mit der 256-Bit-Version der Funktion (_mm256_hadd_ps).

Was ist der beste Weg, um die horizontale Summe von a zu berechnen?__m256 Vektor?

Antworten auf die Frage(2)

Ihre Antwort auf die Frage