Suchergebnisse für Anfrage "avx"
Verschiebung von 4 ganzen Zahlen nach rechts um verschiedene Werte SIMD
SSE bietet keine Möglichkeit, gepackte ganze Zahlen um einen variablen Betrag zu verschieben (ich kann alle Anweisungen von AVX und älter verwenden). Du kannst nur gleichmäßige Schichten machen. Das Ergebnis, das ich für jede ganze Zahl im Vektor ...
Was ist die Mindestversion von OS X für die Verwendung mit AVX / AVX2?
Ich habe eine Bildzeichnungsroutine, die mehrfach für SSE, SSE2, SSE3, SSE4.1, SSE4.2, AVX und AVX2 kompiliert wird. Mein Programm sendet dynamisch eine dieser binären Variationen, indem es die CPUID-Flags überprüft. nter Windows überprüfe ich ...
AVX2, Wie kann man effizient vier Ganzzahlen in gerade Indizes eines 256-Bit-Registers laden und in ungerade Indizes kopieren?
Ich habe ein ausgerichtetes Array von Ganzzahlen im Speicher, das die Indizes I0, I1, I2, I3 enthält. Mein Ziel ist es, sie in ein __m256i-Register zu bringen, das I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1 enthält. Der schwierige Teil ...
Neue AVX-Befehlssyntax
Ich hatte einen C-Code mit einigen Intel-Intrinsincs geschrieben. Nachdem ich es zuerst mit avx und dann mit ssse3 Flags kompiliert hatte, bekam ich zwei recht unterschiedliche Assembler-Codes. Z.B AVX: vpunpckhbw %xmm0, %xmm1, %xmm2 ...
Wie werden Daten aus den AVX-Registern abgerufen?
Mit MSVC 2013 und AVX 1 habe ich 8 Floats in einem Register: __m256 foo = mm256_fmadd_ps(a,b,c);etzt möchte ich @ anrufinline void print(float) {...} für alle 8 Schwimmer. Es sieht aus wie das Intel AVX Intrisics würden dies ziemlich ...
Schneller Weg, um ein Array von int64_t zu multiplizieren?
Ich möchte die Multiplikation von zwei speicherausgerichteten Arrays vektorisieren. Ich habe keine Möglichkeit gefunden, 64 * 64-Bit in AVX / AVX2 zu multiplizieren, also habe ich nur das Loop-Unroll-Verfahren durchgeführt und AVX2 geladen / ...
Wo ist Clangs '_mm256_pow_ps' immanent?
Ich kann anscheinend weder für _mm_pow_ps noch für _mm256_pow_ps die Eigenheiten finden, die beide in 'immintrin.h' enthalten sein sollen. Definiert Clang diese nicht oder befinden sie sich in einem Header, den ich nicht einbeziehe?
Gibt es eine inverse Anweisung zur Movemask-Anweisung in Intel Avx2?
Die Movemask-Anweisung (en) nehmen ein __m256i und geben ein int32 zurück, wobei jedes Bit (entweder die ersten 4, 8 oder alle 32 Bits, abhängig vom Typ des Eingangsvektorelements) das höchstwertige Bit des entsprechenden Vektorelements ...
Die effizienteste Methode, um __m256 horizontale Summen von 8 __m256 Quellvektoren zu erhalten
Ich weiß, wie man eins summiert__m256, um einen einzelnen summierten Wert zu erhalten. Ich habe jedoch 8 Vektoren wie Input 1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7], ....., ....., 8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], ...
_mm_testc_ps und _mm_testc_pd vs _mm_testc_si128
Wie Sie wissen, handelt es sich bei den ersten beiden um AVX-spezifische Eigenschaften und bei der zweiten um SSE4.1-Eigenschaften. Beide Sätze von Intrinsics können verwendet werden, um die Gleichheit von 2 Gleitkommavektoren zu überprüfen. Mein ...