Resultados de la búsqueda a petición "simd"
Intel SIMD: ¿cómo puedo verificar si un __m256 * contiene valores distintos de cero?
Estoy usando el compilador de Microsoft Visual Studio. Estoy tratando de averiguar si un vector de 256 bits contiene valores distintos de cero. Yo he tratadores_simd = ! _mm256_testz_ps(*pSrc1, *pSrc1); Pero no funciona.
Comprobando si SSE es compatible en tiempo de ejecución [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Cómo verificar si una CPU admite el conjunto de instrucciones SSE3? [/questions/6121792/how-to-check-if-a-cpu-supports-the-sse3-instruction-set] 5 respuestasdespachador de CPU para Visual Studio para ...
CUDA: evitar la ejecución en serie en la divergencia de rama
Suponga que un kernel CUDA ejecutado por una sola deformación (por simplicidad) alcanza unif-else declaración, donde 20 de los hilos dentro de la urdimbre satisfacencondition y 32-20 = 12 hilos no: if (condition){ statement1; // executed by 20 ...
Problema de alineación SIMD con PPL Combinable
Estoy tratando de sumar los elementos de la matriz en paralelo con SIMD. Para evitar el bloqueo, estoy usando un hilo local combinable que no siempre está alineado en 16 bytes debido a que _mm_add_epi32 está lanzando una ...
gcc, simd intrínsecos y conceptos matemáticos rápidos
Hola a todos :) Estoy tratando de familiarizarme con algunos conceptos sobre punto flotante, SIMD / intrínsecos matemáticos y la bandera de matemática rápida para gcc. Más específicamente, estoy usando MinGW con gcc v4.5.0 en una CPU x86. He ...
¿Por qué GCC o Clang no optimizan la instrucción recíproca a 1 cuando se usan matemáticas rápidas?
¿Alguien sabe por qué GCC / Clang no optimizará la función?prueba1 en el ejemplo de código a continuación para usar simplemente la instrucción RCPPS al usar la opción de matemática rápida? ¿Hay otro indicador del compilador que generaría este ...
Error de C ++: "_mm_sin_ps" no se declaró en este ámbito
Estoy tratando de comparar diferentes formas de aplicar una función a una matriz. por que ...
¿Cómo utilizar la multiplicación y acumulación de intrínsecos en ARM Cortex-a8?
¿Cómo utilizar los intrínsecos de acumulación múltiple multiplicados por GCC? float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);¿Alguien puede explicar qué tres parámetros tengo que pasar a esta función? Me refiero a los registros ...
La forma más rápida de calcular el valor absoluto utilizando SSE
Conozco 3 métodos, pero que yo sepa, solo se usan los primeros 2: Enmascarar el bit de signo usandoandps oandnotps. Pros: Una instrucción rápida si la máscara ya está en un registro, lo que la hace perfecta para hacer esto muchas veces en un ...
Intrínsecos SSE2: comparación de enteros sin signo
Estoy interesado en identificar valores desbordados al agregar enteros de 8 bits sin signo y saturar el resultado a 0xFF: __m128i m1 = _mm_loadu_si128(/* 16 8-bit unsigned integers */); __m128i m2 = _mm_loadu_si128(/* 16 8-bit unsigned integers ...