Suchergebnisse für Anfrage "simd"

Wenn der Wert eines SSE / AVX-Registers so ist, dass alle seine Bytes entweder 0 oder 1 sind, gibt es eine Möglichkeit, die Indizes aller Nicht-Null-Elemente effizient abzurufen? Zum Beispiel, wenn der xmm-Wert | ist r0 = 0 | r1 = 1 | r2 = 0 | ...

c++avx2 sse avx

2 die antwort

Laden von 8 Zeichen aus dem Speicher in eine __m256-Variable als gepackte Gleitkommazahlen mit einfacher Genauigkeit

Ich optimiere einen Algorithmus für die Gaußsche Unschärfe in einem Bild und möchte die Verwendung eines Float-Puffers [8] im folgenden Code durch eine intrinsische Variable __m256 ersetzen. Welche Anweisungsreihe eignet sich am besten für diese ...

c++vectorization sse optimization

2 die antwort

Automatische Vektorisierung funktioniert nicht

Ich versuche, meinen Code automatisch zu vektorisieren, aber es funktioniert nicht. int _tmain(int argc, _TCHAR* argv[]) { const int N = 4096; float x[N]; float y[N]; float sum = 0; //create random values for x and y for (int i = 0; i < N; i++) ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

x86 avx avx2

2 die antwort

Was ist der Unterschied zwischen vextracti128 und vextractf128?

c++directxmath release-mode

1 die antwort

Wird XMVECTOR von DirectXMath als Klassenmitglied verwendet, führt dies nur im Freigabemodus zu einem Absturz.

ryujit .net c#

2 die antwort

Was sind diese zusätzlichen Anweisungen zur Demontage bei Verwendung von SIMD intrinsics?

Ich teste, welche Beschleunigung ich durch die Verwendung von SIMD-Anweisungen mit RyuJIT erzielen kann, und es werden einige Anweisungen zur Demontage angezeigt, die ich nicht erwarte. Ich stütze den Code aufdieser ...

avx x86 sse assembly

2 die antwort

Was sind die besten Befehlssequenzen, um Vektorkonstanten im laufenden Betrieb zu generieren?

"Best" bedeutet die wenigsten Anweisungen (oder die wenigsten Uops, wenn Anweisungen zu mehr als einem Uop decodieren). Die Größe des Maschinencodes in Bytes ist ein Leistungsmerkmal für die gleiche Anzahl von Eingaben. Konstante Generierung ...

c intrinsics arm neon

6 die antwort

Wie verwende ich die Multiplikation und Akkumulation von Intrinsics in ARM Cortex-a8?

Wie verwende ich die von GCC bereitgestellten Multiplikations-Akkumulations-Eigenschaften? float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);Kann mir jemand erklären, welche drei Parameter ich an diese Funktion übergeben muss. Ich ...

performance openmp c c++

3 die antwort

Parallel für vs omp simd: Wann jeweils verwenden?

OpenMP 4.0 führt ein neues Konstrukt mit dem Namen "omp simd" ein. Was ist der Vorteil der Verwendung dieses Konstrukts gegenüber der alten "P...

sse intrinsics c++optimization

6 die antwort

C ++ - Fehler: "_mm_sin_ps" wurde in diesem Bereich nicht deklariert.

Ich versuche, verschiedene Methoden zum Anwenden einer Funktion auf ein Array zu vergleichen. warum ...

Seite 1 von 8

12 3 4 5

Suchergebnisse für Anfrage "simd"

Die Indizes von Nicht-Null-Bytes eines SSE / AVX-Registers

Laden von 8 Zeichen aus dem Speicher in eine __m256-Variable als gepackte Gleitkommazahlen mit einfacher Genauigkeit

Automatische Vektorisierung funktioniert nicht

Beliebte Schlagwörter

TOP-Veröffentlichungen

Was ist der Unterschied zwischen vextracti128 und vextractf128?

Wird XMVECTOR von DirectXMath als Klassenmitglied verwendet, führt dies nur im Freigabemodus zu einem Absturz.

Was sind diese zusätzlichen Anweisungen zur Demontage bei Verwendung von SIMD intrinsics?

Was sind die besten Befehlssequenzen, um Vektorkonstanten im laufenden Betrieb zu generieren?

Wie verwende ich die Multiplikation und Akkumulation von Intrinsics in ARM Cortex-a8?

Parallel für vs omp simd: Wann jeweils verwenden?

C ++ - Fehler: "_mm_sin_ps" wurde in diesem Bereich nicht deklariert.

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "simd"

Beliebte Schlagwörter

TOP-Veröffentlichungen