Suchergebnisse für Anfrage "sse"

2 die antwort

Intel Intrinsics-Handbuch - Latenz und Durchsatz

Kann jemand die in @ angegebenen Werte für Latenz und Durchsatz erkläreIntel Intrinsic Guide [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#] ? Habe ich es richtig verstanden, dass die Latenz die Anzahl der Zeiteinheiten ist, die ...

2 die antwort

Alignment und SSE seltsames Verhalten

Ich versuche, mit SSE zu arbeiten, und habe mich mit einem merkwürdigen Verhalten konfrontiert. Ich schreibe einfachen Code zum Vergleichen zweier Zeichenfolgen mit SSE Intrinsics, führe ihn aus und es funktioniert. Aber später verstehe ich, ...

2 die antwort

Eine schnellere nicht zugewiesene Ganzzahl-SSE-Last, die selten verwendet wird [duplizieren]

Diese Frage hat hier bereits eine Antwort: Was ist der Unterschied zwischen _mm256_lddqu_si256 und _mm256_loadu_si256 [/questions/47425851/whats-the-difference-between-mm256-lddqu-si256-and-mm256-loadu-si256] 1 AntwortIch möchte mehr über das @ ...

TOP-Veröffentlichungen

2 die antwort

Verschiebung von 4 ganzen Zahlen nach rechts um verschiedene Werte SIMD

SSE bietet keine Möglichkeit, gepackte ganze Zahlen um einen variablen Betrag zu verschieben (ich kann alle Anweisungen von AVX und älter verwenden). Du kannst nur gleichmäßige Schichten machen. Das Ergebnis, das ich für jede ganze Zahl im Vektor ...

4 die antwort

Was ist die Mindestversion von OS X für die Verwendung mit AVX / AVX2?

Ich habe eine Bildzeichnungsroutine, die mehrfach für SSE, SSE2, SSE3, SSE4.1, SSE4.2, AVX und AVX2 kompiliert wird. Mein Programm sendet dynamisch eine dieser binären Variationen, indem es die CPUID-Flags überprüft. nter Windows überprüfe ich ...

2 die antwort

AVX2, Wie kann man effizient vier Ganzzahlen in gerade Indizes eines 256-Bit-Registers laden und in ungerade Indizes kopieren?

Ich habe ein ausgerichtetes Array von Ganzzahlen im Speicher, das die Indizes I0, I1, I2, I3 enthält. Mein Ziel ist es, sie in ein __m256i-Register zu bringen, das I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1 enthält. Der schwierige Teil ...

2 die antwort

Neue AVX-Befehlssyntax

Ich hatte einen C-Code mit einigen Intel-Intrinsincs geschrieben. Nachdem ich es zuerst mit avx und dann mit ssse3 Flags kompiliert hatte, bekam ich zwei recht unterschiedliche Assembler-Codes. Z.B AVX: vpunpckhbw %xmm0, %xmm1, %xmm2 ...

2 die antwort

Wo ist VPERMB in AVX2?

AVX2 hat viele gute Sachen. Zum Beispiel enthält es viele Anweisungen, die strikt mächtiger sind als ihre Vorgänger. NehmenVPERMD [http://www.felixcloutier.com/x86/VPERMD.html]: Ermöglicht das beliebige Senden / Mischen / Permutieren von einem ...

2 die antwort

SSE: nicht ausgerichtetes Laden und Speichern, das die Seitengrenze überschreitet

Ich habe irgendwo gelesen, dass vor dem Ausführen eines nicht ausgerichteten Ladens oder Speicherns neben der Seitengrenze (z. B. mit _mm_loadu_si128 / _mm_storeu_si128 intrinsics) sollte der Code zuerst prüfen, ob der gesamte Vektor (in diesem ...

2 die antwort

NEON, SSE und Interleaving Loads vs Shuffles

Ich versuche den Kommentar von "Iwillnotexist Idonotexist" bei @ zu versteh SIMD-Optimierung von cvtColor mit ARM NEON intrinsics [https://stackoverflow.com/q/24977272]: ... warum verwenden Sie nicht die ARM NEON-Intrisics, die der ...