Suchergebnisse für Anfrage "simd"

2 die antwort

Schnellste Methode zur Berechnung des Absolutwerts mit SSE

ch kenne 3 Methoden, aber soweit ich weiß, werden im Allgemeinen nur die ersten 2 verwende Maskiere das Vorzeichen-Bit mitandps oderandnotps. Pros: Eine schnelle Anweisung, wenn sich die Maske bereits in einem Register befindet, was sie perfekt ...

8 die antwort

SSE2 intrinsics - vergleicht vorzeichenlose ganze Zahlen

Ich bin daran interessiert, überlaufende Werte beim Hinzufügen von 8-Bit-Ganzzahlen ohne Vorzeichen zu identifizieren und das Ergebnis in 0xFF zu sättigen: __m128i m1 = _mm_loadu_si128(/* 16 8-bit unsigned integers */); __m128i m2 ...

2 die antwort

SSE-Befehl zum Überprüfen, ob das Byte-Array Nullen enthält. C #

ngenommen, ich habe einbyte[] und möchten überprüfen, ob alle Bytes Nullen sind. For-Schleife ist ein naheliegender Weg, und LINQAll() ist eine ausgefallene Methode, aber höchste Leistung ist entscheidend. Wie kann ich @ verwend ...

TOP-Veröffentlichungen

4 die antwort

Wie schreibe ich C ++ - Code, den der Compiler effizient in SSE oder AVX kompilieren kann?

Nehmen wir an, ich habe eine in c ++ geschriebene Funktion, die Matrixvektormultiplikationen mit vielen Vektoren ausführt. Es wird ein Zeiger auf das zu transformierende Array von Vektoren benötigt. Kann ich zu Recht davon ausgehen, dass der ...

6 die antwort

Wie führe ich eine Uint32 / Float-Konvertierung mit SSE durch?

n SSE gibt es eine Funktion_mm_cvtepi32_ps(__m128i input), der einen Eingabevektor mit 32 Bit breiten Ganzzahlen mit Vorzeichen verwendet int32_t) und konvertiert sie infloat s. Now, ich möchte Eingabe-Ganzzahlen als nicht signiert ...

2 die antwort

Laden von 8 Zeichen aus dem Speicher in eine __m256-Variable als gepackte Gleitkommazahlen mit einfacher Genauigkeit

Ich optimiere einen Algorithmus für die Gaußsche Unschärfe in einem Bild und möchte die Verwendung eines Float-Puffers [8] im folgenden Code durch eine intrinsische Variable __m256 ersetzen. Welche Anweisungsreihe eignet sich am besten für diese ...

2 die antwort

Was sind diese zusätzlichen Anweisungen zur Demontage bei Verwendung von SIMD intrinsics?

Ich teste, welche Beschleunigung ich durch die Verwendung von SIMD-Anweisungen mit RyuJIT erzielen kann, und es werden einige Anweisungen zur Demontage angezeigt, die ich nicht erwarte. Ich stütze den Code aufdieser ...

4 die antwort

SIMD-Anweisungen für den Gleitkomma-Gleichheitsvergleich (mit NaN == NaN)

Welche Befehle würden zum Vergleichen von zwei 128-Bit-Vektoren verwendet, die aus 4 * 32-Bit-Gleitkommawerten bestehen? Gibt es eine Anweisung, die einen NaN-Wert auf beiden Seiten als gleich betrachtet? Wenn nicht, wie groß wäre die ...

4 die antwort

Wie implementiere ich atoi mit SIMD?

Ich möchte versuchen, eine atoi-Implementierung mithilfe von SIMD-Anweisungen zu schreiben, die in @ enthalten sein sol RapidJSON [http://rapidjson.org/] (eine C ++ - JSON-Lese- / Schreibbibliothek). Derzeit wurden an anderen Stellen einige ...

2 die antwort

Was sind die besten Befehlssequenzen, um Vektorkonstanten im laufenden Betrieb zu generieren?

"Best" bedeutet die wenigsten Anweisungen (oder die wenigsten Uops, wenn Anweisungen zu mehr als einem Uop decodieren). Die Größe des Maschinencodes in Bytes ist ein Leistungsmerkmal für die gleiche Anzahl von Eingaben. Konstante Generierung ...