Suchergebnisse für Anfrage "simd"
Schnellste Methode zur Berechnung des Absolutwerts mit SSE
ch kenne 3 Methoden, aber soweit ich weiß, werden im Allgemeinen nur die ersten 2 verwende Maskiere das Vorzeichen-Bit mitandps oderandnotps. Pros: Eine schnelle Anweisung, wenn sich die Maske bereits in einem Register befindet, was sie perfekt ...
SSE2 intrinsics - vergleicht vorzeichenlose ganze Zahlen
Ich bin daran interessiert, überlaufende Werte beim Hinzufügen von 8-Bit-Ganzzahlen ohne Vorzeichen zu identifizieren und das Ergebnis in 0xFF zu sättigen: __m128i m1 = _mm_loadu_si128(/* 16 8-bit unsigned integers */); __m128i m2 ...
SSE-Befehl zum Überprüfen, ob das Byte-Array Nullen enthält. C #
ngenommen, ich habe einbyte[] und möchten überprüfen, ob alle Bytes Nullen sind. For-Schleife ist ein naheliegender Weg, und LINQAll() ist eine ausgefallene Methode, aber höchste Leistung ist entscheidend. Wie kann ich @ verwend ...
Wie schreibe ich C ++ - Code, den der Compiler effizient in SSE oder AVX kompilieren kann?
Nehmen wir an, ich habe eine in c ++ geschriebene Funktion, die Matrixvektormultiplikationen mit vielen Vektoren ausführt. Es wird ein Zeiger auf das zu transformierende Array von Vektoren benötigt. Kann ich zu Recht davon ausgehen, dass der ...
Wie führe ich eine Uint32 / Float-Konvertierung mit SSE durch?
n SSE gibt es eine Funktion_mm_cvtepi32_ps(__m128i input), der einen Eingabevektor mit 32 Bit breiten Ganzzahlen mit Vorzeichen verwendet int32_t) und konvertiert sie infloat s. Now, ich möchte Eingabe-Ganzzahlen als nicht signiert ...
Laden von 8 Zeichen aus dem Speicher in eine __m256-Variable als gepackte Gleitkommazahlen mit einfacher Genauigkeit
Ich optimiere einen Algorithmus für die Gaußsche Unschärfe in einem Bild und möchte die Verwendung eines Float-Puffers [8] im folgenden Code durch eine intrinsische Variable __m256 ersetzen. Welche Anweisungsreihe eignet sich am besten für diese ...
Was sind diese zusätzlichen Anweisungen zur Demontage bei Verwendung von SIMD intrinsics?
Ich teste, welche Beschleunigung ich durch die Verwendung von SIMD-Anweisungen mit RyuJIT erzielen kann, und es werden einige Anweisungen zur Demontage angezeigt, die ich nicht erwarte. Ich stütze den Code aufdieser ...
SIMD-Anweisungen für den Gleitkomma-Gleichheitsvergleich (mit NaN == NaN)
Welche Befehle würden zum Vergleichen von zwei 128-Bit-Vektoren verwendet, die aus 4 * 32-Bit-Gleitkommawerten bestehen? Gibt es eine Anweisung, die einen NaN-Wert auf beiden Seiten als gleich betrachtet? Wenn nicht, wie groß wäre die ...
Wie implementiere ich atoi mit SIMD?
Ich möchte versuchen, eine atoi-Implementierung mithilfe von SIMD-Anweisungen zu schreiben, die in @ enthalten sein sol RapidJSON [http://rapidjson.org/] (eine C ++ - JSON-Lese- / Schreibbibliothek). Derzeit wurden an anderen Stellen einige ...
Was sind die besten Befehlssequenzen, um Vektorkonstanten im laufenden Betrieb zu generieren?
"Best" bedeutet die wenigsten Anweisungen (oder die wenigsten Uops, wenn Anweisungen zu mehr als einem Uop decodieren). Die Größe des Maschinencodes in Bytes ist ein Leistungsmerkmal für die gleiche Anzahl von Eingaben. Konstante Generierung ...