Suchergebnisse für Anfrage "sse"
Ist die nicht ausgerichtete SSE-Last langsamer als die ausgerichtete Last bei x64_64-Intel-CPUs?
Ich denke darüber nach, einen Code mit hoher Leistung zu ändern, der derzeit 16-Byte-ausgerichtete Arrays und Verwendungen erfordert
transponieren für 8 Register von 16-Bit-Elementen auf SSE2 / SSSE3
(Ich bin ein Neuling bei SSE / ASM, entschuldige mich, wenn dies offensichtlich oder überflüssig ist.) Gibt es eine bessere Möglichkeit, 8 SSE-Register mit 16-Bit-Werten zu transponieren, als 24 Unpck-Ps und 8/16 + Shuffles auszuführen und 8 ...
Memset parallel zu Threads, die an jeden physischen Kern gebunden sind
Ich habe den Code unter getestetWäre es in einem OpenMP-Parallelcode von Vorteil, wenn memset parallel ausgeführt ...
Von Visual Studio 2013 Update 2 und Update 3 generierte SSE 4-Anweisungen
Wenn ich diesen Code in VS 2013 Update 2 oder Update 3 kompiliere: (unten steht Update 3) #include "stdafx.h" #include <iostream> #include <random> struct Buffer { long* data; int count; }; #ifndef max #define max(a,b) (((a) > (b)) ? (a) : ...
SSE42 & STTNI - PcmpEstrM ist zweimal langsamer als PcmpIstrM, stimmt das?
Ich experimentiere mit SSE42- und STTNI-Anweisungen und habe ein seltsames Ergebnis -PcmpEstrM(funktioniert mit expliziten Längenzeichenfolgen) wird ausgeführtzweimal langsamer als PcmpIstrM(implizite Längenzeichenfolgen). Auf meinemi7 3610QMder ...
Gängige SIMD-Techniken
Wo finde ich Informationen zu gängigen SIMD-Tricks? Ich habe einen Befehlssatz und weiß, wie man einfachen SIMD-Code schreibt, aber ich weiß, SIMD ist jetzt viel leistungsfähiger. Es kann komplexen bedingten Code ohne ...
SIMD-Broadcasts (SSE / AVX) mit GCC implizieren
Ich habe den größten Teil meines SIMD-Codes in die Vektorerweiterungen von GCC konvertiert. Ich habe jedoch keine gute Lösung für eine Sendung wie folgt gefunden __m256 areg0 = _mm256_broadcast_ss(&a[i]);Ich will das tun __m256 argeg0 = ...