Suchergebnisse für Anfrage "simd"
Wie berechnet diese Funktion den absoluten Wert eines Gleitkommas durch eine NOT- und eine AND-Operation?
Ich versuche zu verstehen, wie der folgende Codeausschnitt funktioniert. Dieses Programm verwendet SIMD-Vektoranweisungen (Intel SSE), um den Absolutwert von 4 Floats zu berechnen (also im Grunde eine vektorisierte "fabs ()" - Funktion). Hier ...
Schnellste Methode zum Entpacken von 32 Bit in einen 32-Byte-SIMD-Vektor
32 Bits in eineruint32_t Was ist im Speicher der schnellste Weg, um jedes Bit in ein separates Byte-Element eines AVX-Registers zu entpacken? Die Bits können sich innerhalb ihres jeweiligen Bytes an einer beliebigen Position befinden. Edit: Zur ...
Überprüfung der Gleichheit zwischen zwei __m128i-Variablen
Wenn ich einen bitweisen Gleichheitstest zwischen zwei__m128i Variablen, muss ich eine SSE-Anweisung verwenden oder kann ich @ verwende==? Wenn nicht, welchen SSE-Befehl soll ich verwenden?
Horizontal hinzufügen mit __m512 (AVX512)
Wie führt man eine horizontale Addition mit Gleitkommazahlen in einem 512-Bit-AVX-Register effizient durch (dh addiert die Elemente aus einem einzelnen Vektor)? Für 128- und 256-Bit-Register kann dies mit _mm_hadd_ps und _mm256_hadd_ps erfolgen, ...
Unterschied zwischen den AVX-Anweisungen vxorpd und vpxor
Laut demIntel Intrinsics Guide [https://software.intel.com/sites/landingpage/IntrinsicsGuide/], vxorpd ymm, ymm, ymm: Berechnet das bitweise XOR gepackter Gleitkommaelemente mit doppelter Genauigkeit (64-Bit) in a und b und speichert die ...
CPU SIMD vs GPU SIMD?
GPU verwendet das SIMD [http://en.wikipedia.org/wiki/SIMD] Paradigma, das heißt, derselbe Teil des Codes wird parallel ausgeführt und auf verschiedene Elemente eines Datensatzes angewendet. Die CPU verwendet jedoch auch SIMD und bietet ...
Wie schnell können Sie eine lineare Suche durchführen?
Ich möchte diese lineare Suche optimieren: static int linear (const int *arr, int n, int key) { int i = 0; while (i < n) { if (arr [i] >= key) break; ++i; } return i; } Das Array ist sortiert und die Funktion soll den Index des ersten Elements ...
Schnellste 64-Bit-Bevölkerungszahl (Hamming-Gewicht)
Ich musste das Hamming-Gewicht für einen recht schnellen kontinuierlichen Fluss von 64-Bit-Daten berechnen und das @ verwendepopcnt Montageanleitung wirft mir eine Ausnahme von meinem Intel Core i7-4650U. Ich habe die Freude meines Bibel-Hackers ...
praktisch BigNum AVX / SSE möglich?
SSE / AVX-Register können als Ganzzahl- oder Gleitkomma-BigNums angesehen werden. Das heißt, man könnte vernachlässigen, dass es überhaupt Fahrspuren gibt. Gibt es eine einfache Möglichkeit, diesen Standpunkt auszunutzen und diese Register ...
Unterstützen alle 64-Bit-Intel-Architekturen SSSE3 / SSE4.1 / SSE4.2-Anweisungen?
Ich habe im Web gesucht undintel Software manual [http://www.intel.com/Assets/ja_JP/PDF/manual/253665.pdf]. Ich kann jedoch nicht bestätigen, ob alle Intel 64-Architekturen bis SSSE3 oder bis SSE4.1 oder bis SSE4.2 oder AVX usw. unterstützen. ...