Suchergebnisse für Anfrage "sse"

1 die antwort

Wie kann ich "_mm_storeu_epi64" ohne Aliasing-Probleme implementieren?

(Hinweis: Obwohl es sich bei dieser Frage um "Speichern" handelt, hat der "Laden" -Fall dieselben Probleme und ist perfekt symmetrisch.) Die SSE-Intrinsics bieten ...

1 die antwort

SIMD-Optimierung von cvtColor mit ARM NEON intrinsics

Ich arbeite an einer SIMD-Optimierung von BGR zu Graustufen-Konvertierung, die äquivalent zu istOpenCV'scvtColor() Funktion [http://docs.opencv.org/2.4/modules/imgproc/doc/miscellaneous_transformations.html] . Es gibt eine Intel SSE-Version ...

4 die antwort

sind statische / statische lokale SSE / AVX-Variablen, die ein xmm / ymm-Register blockieren?

Bei Verwendung von SSE-Intrinsics sind häufig Nullvektoren erforderlich. Eine Möglichkeit, die Erstellung einer Nullvariablen innerhalb einer Funktion zu vermeiden, wenn die Funktion aufgerufen wird (jedes Mal, wenn effektiv ...

TOP-Veröffentlichungen

3 die antwort

Überprüfung der Gleichheit zwischen zwei __m128i-Variablen

Wenn ich einen bitweisen Gleichheitstest zwischen zwei__m128i Variablen, muss ich eine SSE-Anweisung verwenden oder kann ich @ verwende==? Wenn nicht, welchen SSE-Befehl soll ich verwenden?

10 die antwort

Kann man mit CRC32C als Basis eine "gute" Hash-Funktion konstruieren?

Da SSE 4.2 (Intel Core i7 & i5 Teile) eine CRC32-Anweisung enthält, erscheint es sinnvoll zu untersuchen, ob eine schnellere Allzweck-Hash-Funktion erstellt werden kann. GemäßDie [http://home.comcast.net/~bretm/hash/8.html] Nur 16 Bits eines ...

4 die antwort

numpy um / rint langsam im Vergleich zu Astype (int)

Also wenn ich so etwas wie @ hax=np.random.rand(60000)*400-200. iPythons%timeit sagt: x.astype(int) nimmt 0.14msnp.rint(x) undnp.around(x) take 1.01ms Beachten Sie, dass imrint undaround Fällen müssen Sie noch die zusätzlichen 0,14 ms ...

6 die antwort

praktisch BigNum AVX / SSE möglich?

SSE / AVX-Register können als Ganzzahl- oder Gleitkomma-BigNums angesehen werden. Das heißt, man könnte vernachlässigen, dass es überhaupt Fahrspuren gibt. Gibt es eine einfache Möglichkeit, diesen Standpunkt auszunutzen und diese Register ...

4 die antwort

SIMD signiert mit vorzeichenloser Multiplikation für 64-Bit * 64-Bit bis 128-Bit

Ich habe eine Funktion erstellt, die mit SIMD 64-Bit * 64-Bit bis 128-Bit unterstützt. Derzeit habe ich es mit SSE2 (aktuell SSE4.1) implementiert. Dies bedeutet, dass zwei 64b * 64b bis 128b-Produkte gleichzeitig ausgeführt werden. Dieselbe Idee ...

4 die antwort

Übersetzen von SSE nach Neon: Packen und anschließendes Extrahieren des 32-Bit-Ergebnisses

Ich muss die folgenden Anweisungen von SSE nach Neon übersetzen uint32_t a = _mm_cvtsi128_si32(_mm_shuffle_epi8(a,SHUFFLE_MASK) );Wo static const __m128i SHUFFLE_MASK = _mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, ...

4 die antwort

Überprüfen, ob SSE zur Laufzeit unterstützt wird [duplizieren]

Diese Frage hat hier bereits eine Antwort: Wie überprüfe ich, ob eine CPU den SSE3-Befehlssatz unterstützt? [/questions/6121792/how-to-check-if-a-cpu-supports-the-sse3-instruction-set] 5 Antworten CPU Dispatcher für Visual Studio für AVX und ...