Suchergebnisse für Anfrage "avx"

2 die antwort

Unterschied zwischen den AVX-Anweisungen vxorpd und vpxor

Laut demIntel Intrinsics Guide [https://software.intel.com/sites/landingpage/IntrinsicsGuide/], vxorpd ymm, ymm, ymm: Berechnet das bitweise XOR gepackter Gleitkommaelemente mit doppelter Genauigkeit (64-Bit) in a und b und speichert die ...

4 die antwort

sind statische / statische lokale SSE / AVX-Variablen, die ein xmm / ymm-Register blockieren?

Bei Verwendung von SSE-Intrinsics sind häufig Nullvektoren erforderlich. Eine Möglichkeit, die Erstellung einer Nullvariablen innerhalb einer Funktion zu vermeiden, wenn die Funktion aufgerufen wird (jedes Mal, wenn effektiv ...

2 die antwort

L1 Speicherbandbreite: 50% Wirkungsgradverlust bei Adressen, die sich um 4096 + 64 Bytes unterscheiden

Ich möchte die maximale Bandbreite der folgenden Vorgänge mit Intel-Prozessoren erreichen. for(int i=0; i<n; i++) z[i] = x[i] + y[i]; //n=2048wobei x, y und z Float-Arrays sind. Ich mache das auf Haswell-, Ivy Bridge- und Westmere-Systemen. Ich ...

TOP-Veröffentlichungen

2 die antwort

Messung der Speicherbandbreite aus dem Skalarprodukt zweier Arrays

Das Skalarprodukt zweier Arrays for(int i=0; i<n; i++) { sum += x[i]*y[i]; }Daten werden nicht wiederverwendet, daher sollte es sich um eine speichergebundene Operation handeln. Daher sollte es mir möglich sein, die Speicherbandbreite anhand des ...

1 die antwort

Schnellste Methode zum Entpacken von 32 Bit in einen 32-Byte-SIMD-Vektor

32 Bits in eineruint32_t Was ist im Speicher der schnellste Weg, um jedes Bit in ein separates Byte-Element eines AVX-Registers zu entpacken? Die Bits können sich innerhalb ihres jeweiligen Bytes an einer beliebigen Position befinden. Edit: Zur ...

3 die antwort

Gibt es eine effizientere Möglichkeit, 4 aufeinanderfolgende Doubles in 4 YMM-Registern zu übertragen?

In einem Stück C ++ - Code, der etwas Ähnliches wie (aber nicht genau) Matrixmultiplikation ausführt, lade ich 4 zusammenhängende Doubles in 4 YMM-Register wie folgt: # a is a 64-byte aligned array of double __m256d b0 ...

1 die antwort

Unerwartet gute Leistung mit openmp parallel for loop

Ich habe meine Frage nach vorherigen Kommentaren (insbesondere @Zboson) zur besseren Lesbarkeit bearbeitet Ich habe immer nach der üblichen Weisheit gehandelt und beobachtet, dass die Anzahl der OpenMP-Threads ungefähr der Anzahl der ...

2 die antwort

SIMD-Broadcasts (SSE / AVX) mit GCC implizieren

Ich habe den größten Teil meines SIMD-Codes in die Vektorerweiterungen von GCC konvertiert. Ich habe jedoch keine gute Lösung für eine Sendung wie folgt gefunden __m256 areg0 = _mm256_broadcast_ss(&a[i]);Ich will das tun __m256 argeg0 = ...

2 die antwort

FMA3 in GCC: Wie wird es aktiviert?

Ich habe einen i5-4250U mit AVX2 und FMA3. Ich teste einen dichten Matrixmultiplikationscode in GCC 4.8.1 unter Linux, den ich geschrieben habe. Nachfolgend finden Sie eine Liste mit drei verschiedenen Möglichkeiten, die ich kompiliere. SSE2: ...

2 die antwort

Verwendung von SIMD / AVX / SSE zum Durchlaufen von Bäumen

Ich recherchiere gerade, ob es möglich ist, einen Baum von Van Emde Boas (oder einen Baum) schneller zu durchqueren. Bei einer einzelnen Suchabfrage als Eing...