Suchergebnisse für Anfrage "avx"
Unerwartet gute Leistung mit openmp parallel for loop
Ich habe meine Frage nach vorherigen Kommentaren (insbesondere @Zboson) zur besseren Lesbarkeit bearbeitet Ich habe immer nach der üblichen Weisheit gehandelt und beobachtet, dass die Anzahl der OpenMP-Threads ungefähr der Anzahl der ...
Schnellste Methode zum Entpacken von 32 Bit in einen 32-Byte-SIMD-Vektor
32 Bits in eineruint32_t Was ist im Speicher der schnellste Weg, um jedes Bit in ein separates Byte-Element eines AVX-Registers zu entpacken? Die Bits können sich innerhalb ihres jeweiligen Bytes an einer beliebigen Position befinden. Edit: Zur ...
Wie man __m256 horizontal summiert?
Ich möchte die Komponenten von a horizontal summieren
Streuen Sie Intrinsics in AVX
Ich kann sie im Intel Intrinsic Guide v2.7 nicht finden. Wissen Sie, ob AVX- oder AVX2-Befehlssätze diese unterstützen?
FLOPS pro Zyklus für Sandbrücke und Haswell SSE2 / AVX / AVX2
Ich bin verwirrt darüber, wie viele Flops pro Zyklus und Kern mit Sandy-Bridge und Haswell gemacht werden können. Wie ich es mit SSE verstehe, sollte es 4 Fl...
Verwendung der FMA-Anweisungen (Fused Multiply-Add) mit SSE / AVX
Ich habe gelernt, dass einige Intel / AMD-CPUs mit SSE / AVX simultan multiplizieren und addieren können:FLOPS pro Zyklus für Sandbrücke und Haswell SSE2 / A...
Leistung von SSE und AVX, wenn beide Speicherbandbreiten begrenzt sind
Im folgenden Code habe ich die "dataLen" geändert und unterschiedliche Effizienz erhalten.dataLen = 400 SSE-Zeit: 758000 us AVX-Zeit: 483000 us SSE...