Resultados de la búsqueda a petición "sse"

Considere una matriz comoatomic<int32_t> shared_array[]. ¿Qué pasa si quieres SIMD vectorizar?for(...) sum += shared_array[i].load(memory_order_relaxed)?. ¿O buscar una matriz para el primer elemento que no sea cero, o poner a cero un rango de ...

assembly x86 micro-optimization sse4

1 la respuesta

¿Cuánto más rápido son las instrucciones de cadena SSE4.2 que SSE2 para memcmp?

Aquí está el ensamblador de mi código ¿Se puede incrustar en c ++ y verificar con SSE4? A velocidad Me gustaría mucho ver cómo entró en el desarrollo de SSE4. ¿O no está preocupado por él en absoluto? Vamos a comprobar (no tengo soporte por ...

c avx memory x86

1 la respuesta

Las operaciones escalares AVX son mucho más rápidas

Pruebo la siguiente función simple void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }con matrices muy grandes, de modo que se vincula el ancho de banda de la memoria. El código de prueba que uso está debajo. Cuando ...

gcc c simd

2 la respuesta

¿Cuál es la forma más eficiente de cargar y extraer valores enteros de 32 bits de un vector SSE de 128 bits?

Estoy tratando de optimizar mi código usando intrínsecos SSE, pero me encuentro con un problema en el que no conozco una buena manera de extraer los valores enteros de un vector después de haber realizado las operaciones intrínsecas SSE para ...

assembly x86 synchronization memory-fences

2 la respuesta

Hacer visibles las tiendas de memoria anteriores para las cargas de memoria posteriores

Quiero almacenar datos en una gran matriz con_mm256_stream_si256() llamado en un bucle. Como entendí, se necesita una cerca de memoria para hacer que estos cambios sean visibles para otros hilos. La descripción de_mm_sfence() dice Realice una ...

optimization c++quaternions

2 la respuesta

¿Por qué mi multiplicación de cuaterniones es más rápida que SSE?

He estado pasando por algunas implementaciones de multiplicación de cuaterniones diferentes, pero me ha sorprendido bastante ver que la implementación de referencia es, hasta ahora, la más rápida. Esta es la implementación en cuestión: inline ...

matrix vector c++quaternions

1 la respuesta

La multiplicación del vector de cuaternión más rápido no funciona

Necesito una rutina de multiplicación de vector de cuaternión más rápida para mi biblioteca de matemáticas. Ahora mismo estoy usando el canónicov' = qv(q^-1), que produce el mismo resultado que multiplicar el vector por una matriz hecha del ...

avx x86 simd

4 la respuesta

NO falta en SSE, AVX?

¿Es mi imaginación o es unPNOT faltan instrucciones en SSE y AVX? Es decir, una instrucción que cambia cada bit en el vector. En caso afirmativo, ¿hay una mejor manera de emularlo quePXOR con un vector de todos los 1? Bastante molesto ya que ...

assembly java expression-evaluation strictfp

1 la respuesta

¿El modificador Java tonefp tiene algún efecto en las CPU modernas?

Sé el significado de lastrictfp modificador en métodos (y en clases), de acuerdo con el JLS: JLS 8.4.3.5, métodos estrictos fp: [http://docs.oracle.com/javase/specs/jls/se7/html/jls-8.html#jls-8.4.3.5] El efecto del modificador strictlyfp es ...

x86 c gcc simd

2 la respuesta

Error: conversión de tipos de datos definidos por el usuario en c

Esta es una vista más simple de mi problema, quiero convertir un valor flotante en el tipo definido v4si (quiero usar la operación SIMD para la optimización). Ayude a convertir el valor flotante / doble en un tipo definido. #include<stdio.h> ...

Página 9 de 17

7 8910 11

Resultados de la búsqueda a petición "sse"

¿Atomicidad por elemento de carga / almacenamiento de vector y recolección / dispersión?

¿Cuánto más rápido son las instrucciones de cadena SSE4.2 que SSE2 para memcmp?

Las operaciones escalares AVX son mucho más rápidas

Etiquetas Populares

¿Cuál es la forma más eficiente de cargar y extraer valores enteros de 32 bits de un vector SSE de 128 bits?

Hacer visibles las tiendas de memoria anteriores para las cargas de memoria posteriores

¿Por qué mi multiplicación de cuaterniones es más rápida que SSE?

La multiplicación del vector de cuaternión más rápido no funciona

NO falta en SSE, AVX?

¿El modificador Java tonefp tiene algún efecto en las CPU modernas?

Error: conversión de tipos de datos definidos por el usuario en c

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "sse"

Etiquetas Populares