Suchergebnisse für Anfrage "sse"

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

Ist die nicht ausgerichtete SSE-Last langsamer als die ausgerichtete Last bei x64_64-Intel-CPUs?

Ich denke darüber nach, einen Code mit hoher Leistung zu ändern, der derzeit 16-Byte-ausgerichtete Arrays und Verwendungen erfordert

simd matrix x86 assembly

3 die antwort

transponieren für 8 Register von 16-Bit-Elementen auf SSE2 / SSSE3

(Ich bin ein Neuling bei SSE / ASM, entschuldige mich, wenn dies offensichtlich oder überflüssig ist.) Gibt es eine bessere Möglichkeit, 8 SSE-Register mit 16-Bit-Werten zu transponieren, als 24 Unpck-Ps und 8/16 + Shuffles auszuführen und 8 ...

parallel-processing memset multithreading openmp

1 die antwort

Memset parallel zu Threads, die an jeden physischen Kern gebunden sind

Ich habe den Code unter getestetWäre es in einem OpenMP-Parallelcode von Vorteil, wenn memset parallel ausgeführt ...

c++11 c++visual-studio-2013

1 die antwort

Von Visual Studio 2013 Update 2 und Update 3 generierte SSE 4-Anweisungen

Wenn ich diesen Code in VS 2013 Update 2 oder Update 3 kompiliere: (unten steht Update 3) #include "stdafx.h" #include <iostream> #include <random> struct Buffer { long* data; int count; }; #ifndef max #define max(a,b) (((a) > (b)) ? (a) : ...

performance c++sse4

1 die antwort

SSE42 & STTNI - PcmpEstrM ist zweimal langsamer als PcmpIstrM, stimmt das?

Ich experimentiere mit SSE42- und STTNI-Anweisungen und habe ein seltsames Ergebnis -PcmpEstrM(funktioniert mit expliziten Längenzeichenfolgen) wird ausgeführtzweimal langsamer als PcmpIstrM(implizite Längenzeichenfolgen). Auf meinemi7 3610QMder ...

neon simd mmx arm

2 die antwort

Gängige SIMD-Techniken

Wo finde ich Informationen zu gängigen SIMD-Tricks? Ich habe einen Befehlssatz und weiß, wie man einfachen SIMD-Code schreibt, aber ich weiß, SIMD ist jetzt viel leistungsfähiger. Es kann komplexen bedingten Code ohne ...

gcc avx simd

2 die antwort

SIMD-Broadcasts (SSE / AVX) mit GCC implizieren

Ich habe den größten Teil meines SIMD-Codes in die Vektorerweiterungen von GCC konvertiert. Ich habe jedoch keine gute Lösung für eine Sendung wie folgt gefunden __m256 areg0 = _mm256_broadcast_ss(&a[i]);Ich will das tun __m256 argeg0 = ...

Seite 6 von 12

4 567 8

Suchergebnisse für Anfrage "sse"

parallele (kumulative) Präfixsumme mit SSE

Umgehen Sie Verzögerungen beim Wechseln der Domänen der Ausführungseinheit

benutzerdefinierter erweiterter Vektortyp: z.B. float4 b = v.xxyz;

Beliebte Schlagwörter

TOP-Veröffentlichungen

Ist die nicht ausgerichtete SSE-Last langsamer als die ausgerichtete Last bei x64_64-Intel-CPUs?

transponieren für 8 Register von 16-Bit-Elementen auf SSE2 / SSSE3

Memset parallel zu Threads, die an jeden physischen Kern gebunden sind

Von Visual Studio 2013 Update 2 und Update 3 generierte SSE 4-Anweisungen

SSE42 & STTNI - PcmpEstrM ist zweimal langsamer als PcmpIstrM, stimmt das?

Gängige SIMD-Techniken

SIMD-Broadcasts (SSE / AVX) mit GCC implizieren

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "sse"

Beliebte Schlagwörter

TOP-Veröffentlichungen