Suchergebnisse für Anfrage "avx"

Verhindert, dass GCC beim Kompilieren mit -mavx und -mfma automatisch AVX- und FMA-Anweisungen verwendet

x86 simd avx2

2 die antwort

Was ist der Unterschied zwischen vextracti128 und vextractf128?

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

micro-optimization simd performance assembly

2 die antwort

Verwendung von SIMD / AVX / SSE zum Durchlaufen von Bäumen

Ich recherchiere gerade, ob es möglich ist, einen Baum von Van Emde Boas (oder einen Baum) schneller zu durchqueren. Bei einer einzelnen Suchabfrage als Eing...

memory bandwidth c++openmp

2 die antwort

Messung der Speicherbandbreite aus dem Skalarprodukt zweier Arrays

Das Skalarprodukt zweier Arrays for(int i=0; i<n; i++) { sum += x[i]*y[i]; }Daten werden nicht wiederverwendet, daher sollte es sich um eine speichergebundene Operation handeln. Daher sollte es mir möglich sein, die Speicherbandbreite anhand des ...

c++gcc intel fma

2 die antwort

FMA3 in GCC: Wie wird es aktiviert?

Ich habe einen i5-4250U mit AVX2 und FMA3. Ich teste einen dichten Matrixmultiplikationscode in GCC 4.8.1 unter Linux, den ich geschrieben habe. Nachfolgend finden Sie eine Liste mit drei verschiedenen Möglichkeiten, die ich kompiliere. SSE2: ...

gcc sse simd

2 die antwort

SIMD-Broadcasts (SSE / AVX) mit GCC implizieren

Ich habe den größten Teil meines SIMD-Codes in die Vektorerweiterungen von GCC konvertiert. Ich habe jedoch keine gute Lösung für eine Sendung wie folgt gefunden __m256 areg0 = _mm256_broadcast_ss(&a[i]);Ich will das tun __m256 argeg0 = ...

multithreading parallel-processing gcc openmp

1 die antwort

Unerwartet gute Leistung mit openmp parallel for loop

Ich habe meine Frage nach vorherigen Kommentaren (insbesondere @Zboson) zur besseren Lesbarkeit bearbeitet Ich habe immer nach der üblichen Weisheit gehandelt und beobachtet, dass die Anzahl der OpenMP-Threads ungefähr der Anzahl der ...

simd gcc intrinsics intel

3 die antwort

Gibt es eine effizientere Möglichkeit, 4 aufeinanderfolgende Doubles in 4 YMM-Registern zu übertragen?

In einem Stück C ++ - Code, der etwas Ähnliches wie (aber nicht genau) Matrixmultiplikation ausführt, lade ich 4 zusammenhängende Doubles in 4 YMM-Register wie folgt: # a is a 64-byte aligned array of double __m256d b0 ...

avx2 x86 simd

1 die antwort

Schnellste Methode zum Entpacken von 32 Bit in einen 32-Byte-SIMD-Vektor

32 Bits in eineruint32_t Was ist im Speicher der schnellste Weg, um jedes Bit in ein separates Byte-Element eines AVX-Registers zu entpacken? Die Bits können sich innerhalb ihres jeweiligen Bytes an einer beliebigen Position befinden. Edit: Zur ...

Seite 2 von 6

123 4 5

Suchergebnisse für Anfrage "avx"

Fehlende AVX-Log-Eigenschaften (_mm256_log_ps) in g ++ - 4.8?

Verhindert, dass GCC beim Kompilieren mit -mavx und -mfma automatisch AVX- und FMA-Anweisungen verwendet

Was ist der Unterschied zwischen vextracti128 und vextractf128?

Beliebte Schlagwörter

TOP-Veröffentlichungen

Verwendung von SIMD / AVX / SSE zum Durchlaufen von Bäumen

Messung der Speicherbandbreite aus dem Skalarprodukt zweier Arrays

FMA3 in GCC: Wie wird es aktiviert?

SIMD-Broadcasts (SSE / AVX) mit GCC implizieren

Unerwartet gute Leistung mit openmp parallel for loop

Gibt es eine effizientere Möglichkeit, 4 aufeinanderfolgende Doubles in 4 YMM-Registern zu übertragen?

Schnellste Methode zum Entpacken von 32 Bit in einen 32-Byte-SIMD-Vektor

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "avx"

Beliebte Schlagwörter

TOP-Veröffentlichungen