Suchergebnisse für Anfrage "intel"
GCC kompiliert die Anzahl der führenden Nullen nur schlecht, wenn Haswell @ angegeben ha
GCC unterstützt das__builtin_clz(int x) [https://gcc.gnu.org/onlinedocs/gcc-6.2.0/gcc/Other-Builtins.html#index-g_t_005f_005fbuiltin_005fclz-4249] builtin, das die Anzahl von @ zähführende Nulle (aufeinanderfolgende höchstwertige Nullen) im ...
Intel Intrinsics-Handbuch - Latenz und Durchsatz
Kann jemand die in @ angegebenen Werte für Latenz und Durchsatz erkläreIntel Intrinsic Guide [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#] ? Habe ich es richtig verstanden, dass die Latenz die Anzahl der Zeiteinheiten ist, die ...
Ist eine Intel-basierte Grafikkarte mit Tensorflow / GPU kompatibel?
Ist diese Grafikkarte mit Tensorflow / GPU kompatibel? *-display description: VGA compatible controller product: Haswell-ULT Integrated Graphics Controller vendor: Intel Corporation physical id: 2 bus info: pci@0000:00:02.0 version: 09 width: 64 ...
Warum ist Skylake für den Single-Threaded-Speicherdurchsatz so viel besser als Broadwell-E?
Wir haben einen einfachen Benchmark für den Speicherdurchsatz. Es wird lediglich wiederholt für einen großen Speicherblock gespeichert. Betrachtet man die Ergebnisse (für 64-Bit-Versionen kompiliert) auf einigen verschiedenen Computern, sind ...
Alignment und SSE seltsames Verhalten
Ich versuche, mit SSE zu arbeiten, und habe mich mit einem merkwürdigen Verhalten konfrontiert. Ich schreibe einfachen Code zum Vergleichen zweier Zeichenfolgen mit SSE Intrinsics, führe ihn aus und es funktioniert. Aber später verstehe ich, ...
Wo ist VPERMB in AVX2?
AVX2 hat viele gute Sachen. Zum Beispiel enthält es viele Anweisungen, die strikt mächtiger sind als ihre Vorgänger. NehmenVPERMD [http://www.felixcloutier.com/x86/VPERMD.html]: Ermöglicht das beliebige Senden / Mischen / Permutieren von einem ...
x86_64: ist IMUL schneller als 2x SHL + 2x ADD?
Beim Betrachten der von Visual Studio (2015U2) in @ erstellten Assemb/O2 (release) mode Ich habe gesehen, dass dieses 'handoptimierte' Stück C-Code wieder in eine Multiplikation übersetzt wird: int64_t calc(int64_t a) { return (a << 6) + (a << ...
Deoptimizing a program for the pipeline in Intel Sandybridge-family CPU
Ich habe mir seit einer Woche den Kopf zerbrochen, um diese Aufgabe zu erfüllen, und ich hoffe, dass mich jemand hier auf den richtigen Weg führen kann. Lassen Sie mich mit den Anweisungen des Lehrers beginnen: Ihre Aufgabe ist das Gegenteil ...
Build Docker-Image für ARM-Architektur auf Intel-Computern (Mac)
Ich möchte von meinem Mac aus ein Docker-Image für ARM erstellen können. Ich weiß, dass ich mit QEMU ARM-Container auf meinem Mac ausführen kann, aber ich kann nicht herausfinden, wie man für ARM erstellt.
FMA Befehl _mm256_fmadd_pd (): "132", "231" und "213"?
Kann mir jemand erklären, warum es 3 Varianten des zusammengesetzten Multiplikations-Akkumulations-Befehls gibt:vfmadd132pd, vfmadd231pd undvfmadd213pd, während es nur ein C intrinsics @ gi_mm256_fmadd_pd? Um die Dinge zu vereinfachen, was ist ...