Resultados de la búsqueda a petición "sse"

2 la respuesta

Cómo saber si SSE2 está activado en opencv

Tengo una versión de OpenCV 2.4.10 Library que fue construida para Intel X64 en Windows. ¿Cómo puedo saber si el CV_SSE2 está activo? No tengo el código Solo tengo las bibliotecas, las DLL y los encabezados. Gracias

3 la respuesta

¿Cómo resolver el problema de la alineación de 32 bytes para las operaciones de carga / almacenamiento de AVX?

Tengo problemas de alineación mientras usoymm registros, con algunos fragmentos de código que me parecen bien. Aquí hay un ejemplo de trabajo mínimo: #include <iostream> #include <immintrin.h> inline void ones(float *a) { __m256 out_aligned = ...

4 la respuesta

Intrínsecos SSE2: comparación de enteros sin signo

Estoy interesado en identificar valores desbordados al agregar enteros de 8 bits sin signo y saturar el resultado a 0xFF: __m128i m1 = _mm_loadu_si128(/* 16 8-bit unsigned integers */); __m128i m2 = _mm_loadu_si128(/* 16 8-bit unsigned integers ...

2 la respuesta

¿Cómo escribir código c ++ que el compilador puede compilar eficientemente a SSE o AVX?

Digamos que tengo una función escrita en c ++ que realiza multiplicaciones de vectores de matriz en muchos vectores. Se necesita un puntero a la matriz de vectores para transformar. ¿Estoy en lo cierto al suponer que el compilador no puede ...

1 la respuesta

¿Obtengo una penalización de rendimiento cuando mezclo instrucciones SSD integer / float SIMD?

He usado bastante las instrucciones x86 SIMD (SSE1234) en forma de intrínsecos últimamente. Lo que encontré frustrante es que el SSE ISA tiene varias instrucciones simples que están disponibles solo para flotantes o solo para números enteros, ...

3 la respuesta

¿Cómo llevar a cabo la conversión de uint32 / float con SSE?

En SSE hay una función_mm_cvtepi32_ps(__m128i input) que toma el vector de entrada de enteros con signo de 32 bits de ancho (int32_t) y los convierte enfloats. Ahora, quiero interpretar los enteros de entrada como no firmados. Pero no ...

1 la respuesta

Carga de 8 caracteres de la memoria en una variable __m256 como flotantes de precisión individuales empaquetados

Estoy optimizando un algoritmo para el desenfoque gaussiano en una imagen y quiero reemplazar el uso de un búfer flotante [8] en el código a continuación con una variable intrínseca __m256. ¿Qué serie de instrucciones es la más adecuada para esta ...

2 la respuesta

En GNU C inline asm, ¿cuáles son los modificadores para xmm / ymm / zmm para un solo operando?

Mientras trato de responderDifusiones integradas con intrínsecos y ensamblados [https://stackoverflow.com/questions/34415238/embedded-broadcasts-with-intrinsics-and-assembly] , Estaba tratando de hacer algo como esto: __m512 mul_broad(__m512 a, ...

2 la respuesta

¿La mejor manera de cambiar un __m128i?

Necesito cambiar una variable __m128i, (digamos v), por m bits, de tal manera que los bits se muevan a través de toda la variable (Entonces, la variable resultante representa v * 2 ^ m). ¡¿Cuál es la mejor manera de hacer esto?! Tenga en cuenta ...

1 la respuesta

¿Cuáles son las mejores secuencias de instrucciones para generar constantes vectoriales sobre la marcha?

"Mejor" significa la menor cantidad de instrucciones (o la menor cantidad de uops, si alguna de las instrucciones decodifica a más de una uop). El tamaño del código de máquina en bytes es un factor decisivo para un recuento de insn igual. La ...