Resultados de la búsqueda a petición "sse"
¿Atomicidad por elemento de carga / almacenamiento de vector y recolección / dispersión?
Considere una matriz comoatomic<int32_t> shared_array[]. ¿Qué pasa si quieres SIMD vectorizar?for(...) sum += shared_array[i].load(memory_order_relaxed)?. ¿O buscar una matriz para el primer elemento que no sea cero, o poner a cero un rango de ...
¿Cuánto más rápido son las instrucciones de cadena SSE4.2 que SSE2 para memcmp?
Aquí está el ensamblador de mi código ¿Se puede incrustar en c ++ y verificar con SSE4? A velocidad Me gustaría mucho ver cómo entró en el desarrollo de SSE4. ¿O no está preocupado por él en absoluto? Vamos a comprobar (no tengo soporte por ...
Las operaciones escalares AVX son mucho más rápidas
Pruebo la siguiente función simple void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }con matrices muy grandes, de modo que se vincula el ancho de banda de la memoria. El código de prueba que uso está debajo. Cuando ...
¿Cuál es la forma más eficiente de cargar y extraer valores enteros de 32 bits de un vector SSE de 128 bits?
Estoy tratando de optimizar mi código usando intrínsecos SSE, pero me encuentro con un problema en el que no conozco una buena manera de extraer los valores enteros de un vector después de haber realizado las operaciones intrínsecas SSE para ...
Hacer visibles las tiendas de memoria anteriores para las cargas de memoria posteriores
Quiero almacenar datos en una gran matriz con_mm256_stream_si256() llamado en un bucle. Como entendí, se necesita una cerca de memoria para hacer que estos cambios sean visibles para otros hilos. La descripción de_mm_sfence() dice Realice una ...
¿Por qué mi multiplicación de cuaterniones es más rápida que SSE?
He estado pasando por algunas implementaciones de multiplicación de cuaterniones diferentes, pero me ha sorprendido bastante ver que la implementación de referencia es, hasta ahora, la más rápida. Esta es la implementación en cuestión: inline ...
La multiplicación del vector de cuaternión más rápido no funciona
Necesito una rutina de multiplicación de vector de cuaternión más rápida para mi biblioteca de matemáticas. Ahora mismo estoy usando el canónicov' = qv(q^-1), que produce el mismo resultado que multiplicar el vector por una matriz hecha del ...
NO falta en SSE, AVX?
¿Es mi imaginación o es unPNOT faltan instrucciones en SSE y AVX? Es decir, una instrucción que cambia cada bit en el vector. En caso afirmativo, ¿hay una mejor manera de emularlo quePXOR con un vector de todos los 1? Bastante molesto ya que ...
¿El modificador Java tonefp tiene algún efecto en las CPU modernas?
Sé el significado de lastrictfp modificador en métodos (y en clases), de acuerdo con el JLS: JLS 8.4.3.5, métodos estrictos fp: [http://docs.oracle.com/javase/specs/jls/se7/html/jls-8.html#jls-8.4.3.5] El efecto del modificador strictlyfp es ...
Error: conversión de tipos de datos definidos por el usuario en c
Esta es una vista más simple de mi problema, quiero convertir un valor flotante en el tipo definido v4si (quiero usar la operación SIMD para la optimización). Ayude a convertir el valor flotante / doble en un tipo definido. #include<stdio.h> ...