Suchergebnisse für Anfrage "simd"

1 die antwort

Erfolgreiche Kompilierung des SSE-Befehls mit qmake (SSE2 wird jedoch nicht erkannt)

3 die antwort

Sparse Array-Komprimierung mit SIMD (AVX2)

Ich habe eine spärliche Anordnung

2 die antwort

Was ist der Unterschied zwischen vextracti128 und vextractf128?

TOP-Veröffentlichungen

1 die antwort

Implementierung eines C ++ - SSE-Filters

2 die antwort

Verwendung von SIMD / AVX / SSE zum Durchlaufen von Bäumen

Ich recherchiere gerade, ob es möglich ist, einen Baum von Van Emde Boas (oder einen Baum) schneller zu durchqueren. Bei einer einzelnen Suchabfrage als Eing...

3 die antwort

transponieren für 8 Register von 16-Bit-Elementen auf SSE2 / SSSE3

(Ich bin ein Neuling bei SSE / ASM, entschuldige mich, wenn dies offensichtlich oder überflüssig ist.) Gibt es eine bessere Möglichkeit, 8 SSE-Register mit 16-Bit-Werten zu transponieren, als 24 Unpck-Ps und 8/16 + Shuffles auszuführen und 8 ...

2 die antwort

Gängige SIMD-Techniken

Wo finde ich Informationen zu gängigen SIMD-Tricks? Ich habe einen Befehlssatz und weiß, wie man einfachen SIMD-Code schreibt, aber ich weiß, SIMD ist jetzt viel leistungsfähiger. Es kann komplexen bedingten Code ohne ...

2 die antwort

SIMD-Broadcasts (SSE / AVX) mit GCC implizieren

Ich habe den größten Teil meines SIMD-Codes in die Vektorerweiterungen von GCC konvertiert. Ich habe jedoch keine gute Lösung für eine Sendung wie folgt gefunden __m256 areg0 = _mm256_broadcast_ss(&a[i]);Ich will das tun __m256 argeg0 = ...

2 die antwort

Automatische Vektorisierung funktioniert nicht

Ich versuche, meinen Code automatisch zu vektorisieren, aber es funktioniert nicht. int _tmain(int argc, _TCHAR* argv[]) { const int N = 4096; float x[N]; float y[N]; float sum = 0; //create random values for x and y for (int i = 0; i < N; i++) ...

3 die antwort

Gibt es eine effizientere Möglichkeit, 4 aufeinanderfolgende Doubles in 4 YMM-Registern zu übertragen?

In einem Stück C ++ - Code, der etwas Ähnliches wie (aber nicht genau) Matrixmultiplikation ausführt, lade ich 4 zusammenhängende Doubles in 4 YMM-Register wie folgt: # a is a 64-byte aligned array of double __m256d b0 ...