Suchergebnisse für Anfrage "simd"

1 die antwort

Wie berechnet diese Funktion den absoluten Wert eines Gleitkommas durch eine NOT- und eine AND-Operation?

Ich versuche zu verstehen, wie der folgende Codeausschnitt funktioniert. Dieses Programm verwendet SIMD-Vektoranweisungen (Intel SSE), um den Absolutwert von 4 Floats zu berechnen (also im Grunde eine vektorisierte "fabs ()" - Funktion). Hier ...

1 die antwort

Schnellste Methode zum Entpacken von 32 Bit in einen 32-Byte-SIMD-Vektor

32 Bits in eineruint32_t Was ist im Speicher der schnellste Weg, um jedes Bit in ein separates Byte-Element eines AVX-Registers zu entpacken? Die Bits können sich innerhalb ihres jeweiligen Bytes an einer beliebigen Position befinden. Edit: Zur ...

3 die antwort

Überprüfung der Gleichheit zwischen zwei __m128i-Variablen

Wenn ich einen bitweisen Gleichheitstest zwischen zwei__m128i Variablen, muss ich eine SSE-Anweisung verwenden oder kann ich @ verwende==? Wenn nicht, welchen SSE-Befehl soll ich verwenden?

TOP-Veröffentlichungen

2 die antwort

Horizontal hinzufügen mit __m512 (AVX512)

Wie führt man eine horizontale Addition mit Gleitkommazahlen in einem 512-Bit-AVX-Register effizient durch (dh addiert die Elemente aus einem einzelnen Vektor)? Für 128- und 256-Bit-Register kann dies mit _mm_hadd_ps und _mm256_hadd_ps erfolgen, ...

2 die antwort

Unterschied zwischen den AVX-Anweisungen vxorpd und vpxor

Laut demIntel Intrinsics Guide [https://software.intel.com/sites/landingpage/IntrinsicsGuide/], vxorpd ymm, ymm, ymm: Berechnet das bitweise XOR gepackter Gleitkommaelemente mit doppelter Genauigkeit (64-Bit) in a und b und speichert die ...

4 die antwort

CPU SIMD vs GPU SIMD?

GPU verwendet das SIMD [http://en.wikipedia.org/wiki/SIMD] Paradigma, das heißt, derselbe Teil des Codes wird parallel ausgeführt und auf verschiedene Elemente eines Datensatzes angewendet. Die CPU verwendet jedoch auch SIMD und bietet ...

40 die antwort

Wie schnell können Sie eine lineare Suche durchführen?

Ich möchte diese lineare Suche optimieren: static int linear (const int *arr, int n, int key) { int i = 0; while (i < n) { if (arr [i] >= key) break; ++i; } return i; } Das Array ist sortiert und die Funktion soll den Index des ersten Elements ...

4 die antwort

Schnellste 64-Bit-Bevölkerungszahl (Hamming-Gewicht)

Ich musste das Hamming-Gewicht für einen recht schnellen kontinuierlichen Fluss von 64-Bit-Daten berechnen und das @ verwendepopcnt Montageanleitung wirft mir eine Ausnahme von meinem Intel Core i7-4650U. Ich habe die Freude meines Bibel-Hackers ...

6 die antwort

praktisch BigNum AVX / SSE möglich?

SSE / AVX-Register können als Ganzzahl- oder Gleitkomma-BigNums angesehen werden. Das heißt, man könnte vernachlässigen, dass es überhaupt Fahrspuren gibt. Gibt es eine einfache Möglichkeit, diesen Standpunkt auszunutzen und diese Register ...

2 die antwort

Unterstützen alle 64-Bit-Intel-Architekturen SSSE3 / SSE4.1 / SSE4.2-Anweisungen?

Ich habe im Web gesucht undintel Software manual [http://www.intel.com/Assets/ja_JP/PDF/manual/253665.pdf]. Ich kann jedoch nicht bestätigen, ob alle Intel 64-Architekturen bis SSSE3 oder bis SSE4.1 oder bis SSE4.2 oder AVX usw. unterstützen. ...