Suchergebnisse für Anfrage "sse"
Wie kann ich "_mm_storeu_epi64" ohne Aliasing-Probleme implementieren?
(Hinweis: Obwohl es sich bei dieser Frage um "Speichern" handelt, hat der "Laden" -Fall dieselben Probleme und ist perfekt symmetrisch.) Die SSE-Intrinsics bieten ...
SIMD-Optimierung von cvtColor mit ARM NEON intrinsics
Ich arbeite an einer SIMD-Optimierung von BGR zu Graustufen-Konvertierung, die äquivalent zu istOpenCV'scvtColor() Funktion [http://docs.opencv.org/2.4/modules/imgproc/doc/miscellaneous_transformations.html] . Es gibt eine Intel SSE-Version ...
sind statische / statische lokale SSE / AVX-Variablen, die ein xmm / ymm-Register blockieren?
Bei Verwendung von SSE-Intrinsics sind häufig Nullvektoren erforderlich. Eine Möglichkeit, die Erstellung einer Nullvariablen innerhalb einer Funktion zu vermeiden, wenn die Funktion aufgerufen wird (jedes Mal, wenn effektiv ...
Überprüfung der Gleichheit zwischen zwei __m128i-Variablen
Wenn ich einen bitweisen Gleichheitstest zwischen zwei__m128i Variablen, muss ich eine SSE-Anweisung verwenden oder kann ich @ verwende==? Wenn nicht, welchen SSE-Befehl soll ich verwenden?
Kann man mit CRC32C als Basis eine "gute" Hash-Funktion konstruieren?
Da SSE 4.2 (Intel Core i7 & i5 Teile) eine CRC32-Anweisung enthält, erscheint es sinnvoll zu untersuchen, ob eine schnellere Allzweck-Hash-Funktion erstellt werden kann. GemäßDie [http://home.comcast.net/~bretm/hash/8.html] Nur 16 Bits eines ...
numpy um / rint langsam im Vergleich zu Astype (int)
Also wenn ich so etwas wie @ hax=np.random.rand(60000)*400-200. iPythons%timeit sagt: x.astype(int) nimmt 0.14msnp.rint(x) undnp.around(x) take 1.01ms Beachten Sie, dass imrint undaround Fällen müssen Sie noch die zusätzlichen 0,14 ms ...
praktisch BigNum AVX / SSE möglich?
SSE / AVX-Register können als Ganzzahl- oder Gleitkomma-BigNums angesehen werden. Das heißt, man könnte vernachlässigen, dass es überhaupt Fahrspuren gibt. Gibt es eine einfache Möglichkeit, diesen Standpunkt auszunutzen und diese Register ...
SIMD signiert mit vorzeichenloser Multiplikation für 64-Bit * 64-Bit bis 128-Bit
Ich habe eine Funktion erstellt, die mit SIMD 64-Bit * 64-Bit bis 128-Bit unterstützt. Derzeit habe ich es mit SSE2 (aktuell SSE4.1) implementiert. Dies bedeutet, dass zwei 64b * 64b bis 128b-Produkte gleichzeitig ausgeführt werden. Dieselbe Idee ...
Übersetzen von SSE nach Neon: Packen und anschließendes Extrahieren des 32-Bit-Ergebnisses
Ich muss die folgenden Anweisungen von SSE nach Neon übersetzen uint32_t a = _mm_cvtsi128_si32(_mm_shuffle_epi8(a,SHUFFLE_MASK) );Wo static const __m128i SHUFFLE_MASK = _mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, ...
Überprüfen, ob SSE zur Laufzeit unterstützt wird [duplizieren]
Diese Frage hat hier bereits eine Antwort: Wie überprüfe ich, ob eine CPU den SSE3-Befehlssatz unterstützt? [/questions/6121792/how-to-check-if-a-cpu-supports-the-sse3-instruction-set] 5 Antworten CPU Dispatcher für Visual Studio für AVX und ...