Suchergebnisse für Anfrage "simd"
Die Indizes von Nicht-Null-Bytes eines SSE / AVX-Registers
Wenn der Wert eines SSE / AVX-Registers so ist, dass alle seine Bytes entweder 0 oder 1 sind, gibt es eine Möglichkeit, die Indizes aller Nicht-Null-Elemente effizient abzurufen? Zum Beispiel, wenn der xmm-Wert | ist r0 = 0 | r1 = 1 | r2 = 0 | ...
Laden von 8 Zeichen aus dem Speicher in eine __m256-Variable als gepackte Gleitkommazahlen mit einfacher Genauigkeit
Ich optimiere einen Algorithmus für die Gaußsche Unschärfe in einem Bild und möchte die Verwendung eines Float-Puffers [8] im folgenden Code durch eine intrinsische Variable __m256 ersetzen. Welche Anweisungsreihe eignet sich am besten für diese ...
Automatische Vektorisierung funktioniert nicht
Ich versuche, meinen Code automatisch zu vektorisieren, aber es funktioniert nicht. int _tmain(int argc, _TCHAR* argv[]) { const int N = 4096; float x[N]; float y[N]; float sum = 0; //create random values for x and y for (int i = 0; i < N; i++) ...
Was sind diese zusätzlichen Anweisungen zur Demontage bei Verwendung von SIMD intrinsics?
Ich teste, welche Beschleunigung ich durch die Verwendung von SIMD-Anweisungen mit RyuJIT erzielen kann, und es werden einige Anweisungen zur Demontage angezeigt, die ich nicht erwarte. Ich stütze den Code aufdieser ...
Was sind die besten Befehlssequenzen, um Vektorkonstanten im laufenden Betrieb zu generieren?
"Best" bedeutet die wenigsten Anweisungen (oder die wenigsten Uops, wenn Anweisungen zu mehr als einem Uop decodieren). Die Größe des Maschinencodes in Bytes ist ein Leistungsmerkmal für die gleiche Anzahl von Eingaben. Konstante Generierung ...
Wie verwende ich die Multiplikation und Akkumulation von Intrinsics in ARM Cortex-a8?
Wie verwende ich die von GCC bereitgestellten Multiplikations-Akkumulations-Eigenschaften? float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);Kann mir jemand erklären, welche drei Parameter ich an diese Funktion übergeben muss. Ich ...
Parallel für vs omp simd: Wann jeweils verwenden?
OpenMP 4.0 führt ein neues Konstrukt mit dem Namen "omp simd" ein. Was ist der Vorteil der Verwendung dieses Konstrukts gegenüber der alten "P...
C ++ - Fehler: "_mm_sin_ps" wurde in diesem Bereich nicht deklariert.
Ich versuche, verschiedene Methoden zum Anwenden einer Funktion auf ein Array zu vergleichen. warum ...