Suchergebnisse für Anfrage "avx"
Verwendung von SIMD / AVX / SSE zum Durchlaufen von Bäumen
Ich recherchiere gerade, ob es möglich ist, einen Baum von Van Emde Boas (oder einen Baum) schneller zu durchqueren. Bei einer einzelnen Suchabfrage als Eing...
Messung der Speicherbandbreite aus dem Skalarprodukt zweier Arrays
Das Skalarprodukt zweier Arrays for(int i=0; i<n; i++) { sum += x[i]*y[i]; }Daten werden nicht wiederverwendet, daher sollte es sich um eine speichergebundene Operation handeln. Daher sollte es mir möglich sein, die Speicherbandbreite anhand des ...
FMA3 in GCC: Wie wird es aktiviert?
Ich habe einen i5-4250U mit AVX2 und FMA3. Ich teste einen dichten Matrixmultiplikationscode in GCC 4.8.1 unter Linux, den ich geschrieben habe. Nachfolgend finden Sie eine Liste mit drei verschiedenen Möglichkeiten, die ich kompiliere. SSE2: ...
SIMD-Broadcasts (SSE / AVX) mit GCC implizieren
Ich habe den größten Teil meines SIMD-Codes in die Vektorerweiterungen von GCC konvertiert. Ich habe jedoch keine gute Lösung für eine Sendung wie folgt gefunden __m256 areg0 = _mm256_broadcast_ss(&a[i]);Ich will das tun __m256 argeg0 = ...
Unerwartet gute Leistung mit openmp parallel for loop
Ich habe meine Frage nach vorherigen Kommentaren (insbesondere @Zboson) zur besseren Lesbarkeit bearbeitet Ich habe immer nach der üblichen Weisheit gehandelt und beobachtet, dass die Anzahl der OpenMP-Threads ungefähr der Anzahl der ...
Gibt es eine effizientere Möglichkeit, 4 aufeinanderfolgende Doubles in 4 YMM-Registern zu übertragen?
In einem Stück C ++ - Code, der etwas Ähnliches wie (aber nicht genau) Matrixmultiplikation ausführt, lade ich 4 zusammenhängende Doubles in 4 YMM-Register wie folgt: # a is a 64-byte aligned array of double __m256d b0 ...
Schnellste Methode zum Entpacken von 32 Bit in einen 32-Byte-SIMD-Vektor
32 Bits in eineruint32_t Was ist im Speicher der schnellste Weg, um jedes Bit in ein separates Byte-Element eines AVX-Registers zu entpacken? Die Bits können sich innerhalb ihres jeweiligen Bytes an einer beliebigen Position befinden. Edit: Zur ...