Suchergebnisse für Anfrage "simd"

4 die antwort

Die Indizes von Nicht-Null-Bytes eines SSE / AVX-Registers

Wenn der Wert eines SSE / AVX-Registers so ist, dass alle seine Bytes entweder 0 oder 1 sind, gibt es eine Möglichkeit, die Indizes aller Nicht-Null-Elemente effizient abzurufen? Zum Beispiel, wenn der xmm-Wert | ist r0 = 0 | r1 = 1 | r2 = 0 | ...

2 die antwort

Laden von 8 Zeichen aus dem Speicher in eine __m256-Variable als gepackte Gleitkommazahlen mit einfacher Genauigkeit

Ich optimiere einen Algorithmus für die Gaußsche Unschärfe in einem Bild und möchte die Verwendung eines Float-Puffers [8] im folgenden Code durch eine intrinsische Variable __m256 ersetzen. Welche Anweisungsreihe eignet sich am besten für diese ...

2 die antwort

Automatische Vektorisierung funktioniert nicht

Ich versuche, meinen Code automatisch zu vektorisieren, aber es funktioniert nicht. int _tmain(int argc, _TCHAR* argv[]) { const int N = 4096; float x[N]; float y[N]; float sum = 0; //create random values for x and y for (int i = 0; i < N; i++) ...

TOP-Veröffentlichungen

2 die antwort

Was ist der Unterschied zwischen vextracti128 und vextractf128?

1 die antwort

Wird XMVECTOR von DirectXMath als Klassenmitglied verwendet, führt dies nur im Freigabemodus zu einem Absturz.

2 die antwort

Was sind diese zusätzlichen Anweisungen zur Demontage bei Verwendung von SIMD intrinsics?

Ich teste, welche Beschleunigung ich durch die Verwendung von SIMD-Anweisungen mit RyuJIT erzielen kann, und es werden einige Anweisungen zur Demontage angezeigt, die ich nicht erwarte. Ich stütze den Code aufdieser ...

2 die antwort

Was sind die besten Befehlssequenzen, um Vektorkonstanten im laufenden Betrieb zu generieren?

"Best" bedeutet die wenigsten Anweisungen (oder die wenigsten Uops, wenn Anweisungen zu mehr als einem Uop decodieren). Die Größe des Maschinencodes in Bytes ist ein Leistungsmerkmal für die gleiche Anzahl von Eingaben. Konstante Generierung ...

6 die antwort

Wie verwende ich die Multiplikation und Akkumulation von Intrinsics in ARM Cortex-a8?

Wie verwende ich die von GCC bereitgestellten Multiplikations-Akkumulations-Eigenschaften? float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);Kann mir jemand erklären, welche drei Parameter ich an diese Funktion übergeben muss. Ich ...

3 die antwort

Parallel für vs omp simd: Wann jeweils verwenden?

OpenMP 4.0 führt ein neues Konstrukt mit dem Namen &quot;omp simd&quot; ein. Was ist der Vorteil der Verwendung dieses Konstrukts gegenüber der alten &quot;P...

6 die antwort

C ++ - Fehler: "_mm_sin_ps" wurde in diesem Bereich nicht deklariert.

Ich versuche, verschiedene Methoden zum Anwenden einer Funktion auf ein Array zu vergleichen. warum ...