Resultados de la búsqueda a petición "intrinsics"

2 la respuesta

Agregar horizontal con __m512 (AVX512)

¿Cómo se realiza eficientemente la adición horizontal con flotantes en un registro AVX de 512 bits (es decir, se suman los elementos de un solo vector)? Para registros de 128 y 256 bits, esto se puede hacer usando _mm_hadd_ps y _mm256_hadd_ps ...

2 la respuesta

_umul128 en Windows 32 bits

En Visual C ++, _umul128 no está definido cuando se dirige a Windows 32 bits. ¿Cómo se pueden multiplicar dos enteros de 64 bits sin signo al apuntar a Win32? La solución solo necesita funcionar en Visual C ++ 2017 dirigido a Windows 32 bits.

3 la respuesta

¿Cuál es la diferencia entre los intrínsecos lógicos de SSE?

¿Hay alguna diferencia entre las intrínsecas lógicas de SSE para diferentes tipos? Por ejemplo, si tomamos la operación OR, hay tres intrínsecos: _mm_or_ps, _mm_or_pd y _mm_or_si128, todos los cuales hacen lo mismo: calcularbit a bit O de sus ...

3 la respuesta

Error de C ++: "_mm_sin_ps" no se declaró en este ámbito

Estoy tratando de comparar diferentes formas de aplicar una función a una matriz. por que ...

4 la respuesta

imprimir una variable __m128i

4 la respuesta

¿Existe una buena referencia para los intrínsecos ARM Neon?

El manual de referencia ARM no entra en demasiados detalles en las instrucciones individuales ...

1 la respuesta

¿hay una instrucción inversa a la instrucción movemask en intel avx2?

Las instrucciones de máscara de movimiento toman un __m256i y devuelven un int32 donde cada bit (ya sea los primeros 4, 8 o los 32 bits dependiendo del tipo de elemento del vector de entrada) es el bit más significativo del elemento vectorial ...

2 la respuesta

¿Ordenar estructuras de 64 bits con AVX?

Tengo una estructura de 64 bits que representa varios datos, uno de los cuales es un valor de coma flotante: struct MyStruct{ uint16_t a; uint16_t b; float f; };y tengo cuatro de estas estructuras, digamos unstd::array<MyStruct, 4> ¿Es posible ...

1 la respuesta

Dividir por número de punto flotante usando NEON intrinsics

Estoy procesando una imagen de cuatro píxeles en ese momento, esto en unarmv7 para una aplicación de Android. Quiero dividir unfloat32x4_t vector por otro vector pero los números en él varían desde alrededor de0.7 a3.85, y me parece que la ...

1 la respuesta

Compilación exitosa de la instrucción SSE con qmake (pero no se reconoce SSE2)