Wie man __m256 horizontal summiert?
Ich möchte die Komponenten von a horizontal summieren__m256
Vektor mit AVX-Anweisungen. In SSE könnte ich verwenden
_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);
um das Ergebnis bei der ersten Komponente des Vektors zu erhalten, aber dies skaliert nicht mit der 256-Bit-Version der Funktion (_mm256_hadd_ps
).
Was ist der beste Weg, um die horizontale Summe von a zu berechnen?__m256
Vektor?