Suchergebnisse für Anfrage "fma"

1 die antwort

fmad = false ergibt eine gute Leistung

Aus den Nvidia-Versionshinweisen:

2 die antwort

Verwendung der FMA-Anweisungen (Fused Multiply-Add) mit SSE / AVX

Ich habe gelernt, dass einige Intel / AMD-CPUs mit SSE / AVX simultan multiplizieren und addieren können:FLOPS pro Zyklus für Sandbrücke und Haswell SSE2 / A...

2 die antwort

Gibt es ein Szenario, in dem die Funktion fma in libc verwendet werden kann?

Ich komme rüberdiese Seite und finde es ist eine ungeradeFloating multiplizieren hinzufügen Funktion -

TOP-Veröffentlichungen

6 die antwort

Wie ist fma () implementiert

Laut demDokumentatio [http://sourceware.org/newlib/libm.html#fma], da ist einfma() Funktion inmath.h. Das ist sehr schön und ich weiß, wie die FMA funktioniert und wofür sie verwendet werden soll. Ich bin mir jedoch nicht so sicher, wie dies in ...

4 die antwort

Automatisches Generieren von FMA-Anweisungen in MSVC

MSVC unterstützt seit Jahren AVX / AVX2-Anweisungen und entsprichtdieser msdn-Blogbeitrag [http://blogs.msdn.com/b/vcblog/archive/2014/02/28/avx2-support-in-visual-studio-c-compiler.aspx] , es kann automatisch @ erzeug fused-multiply-add ...

8 die antwort

Wie werden Daten aus den AVX-Registern abgerufen?

Mit MSVC 2013 und AVX 1 habe ich 8 Floats in einem Register: __m256 foo = mm256_fmadd_ps(a,b,c);etzt möchte ich @ anrufinline void print(float) {...} für alle 8 Schwimmer. Es sieht aus wie das Intel AVX Intrisics würden dies ziemlich ...

4 die antwort

Fused Multiplizieren Addieren und Standard-Rundungsmodi

With GCC 5.3 das folgende Code compield mit-O3 -fma float mul_add(float a, float b, float c) { return a*b + c; }produziert die folgende Assembly vfmadd132ss %xmm1, %xmm2, %xmm0 ret Ich habe bemerkt, dass GCC dies mit @ t-O3 bereits in GCC 4.8 ...

2 die antwort

Verhindert, dass GCC beim Kompilieren mit -mavx und -mfma automatisch AVX- und FMA-Anweisungen verwendet

4 die antwort

FMA Befehl _mm256_fmadd_pd (): "132", "231" und "213"?

Kann mir jemand erklären, warum es 3 Varianten des zusammengesetzten Multiplikations-Akkumulations-Befehls gibt:vfmadd132pd, vfmadd231pd undvfmadd213pd, während es nur ein C intrinsics @ gi_mm256_fmadd_pd? Um die Dinge zu vereinfachen, was ist ...

4 die antwort

Erhebliche FMA-Leistungsanomalie im Intel Broadwell-Prozessor

Code1: vzeroall mov rcx, 1000000 startLabel1: vfmadd231ps ymm0, ymm0, ymm0 vfmadd231ps ymm1, ymm1, ymm1 vfmadd231ps ymm2, ymm2, ymm2 vfmadd231ps ymm3, ymm3, ymm3 vfmadd231ps ymm4, ymm4, ymm4 vfmadd231ps ymm5, ymm5, ymm5 vfmadd231ps ymm6, ymm6, ...