Resultados de la búsqueda a petición "sse"
¿Cómo se alinean los datos de un vector?
Si quiero procesar datos en unastd::vector con SSE, necesito una alineación de 16 bytes. ¿Cómo puedo lograr eso? ¿Necesito escribir mi propio asignador? ¿O el asignador predeterminado ya se alinea con los límites de 16 bytes?
agregar los componentes de un registro SSE
Quiero agregar los cuatro componentes de un registro SSE para obtener un único flotante. Así es como lo hago ahora: float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];Existe una instrucción SSE que lo logre directamente?
¿Cómo convierto _m128i en un int sin firmar con SSE?
He realizado una función para posterizar imágenes. // =( #define ARGB_COLOR(a, r, g, b) (((a) << 24) | ((r) << 16) | ((g) << 8) | (b)) inline UINT PosterizeColor(const UINT &color, const float &nColors) { __m128 clr = _mm_cvtepi32_ps( ...
SSE más lento que FPU?
Tengo un gran código, parte de cuyo cuerpo contiene este código: result = (nx * m_Lx + ny * m_Ly + m_Lz) / sqrt(nx * nx + ny * ny + 1);que he vectorizado de la siguiente manera (todo ya es unafloat): __m128 r = _mm_mul_ps(_mm_set_ps(ny, nx, ...
SSE: convertir un entero corto a flotante
Quiero convertir una matriz de números cortos sin signo para flotar usando SSE. Digamo __m128i xVal; // Has 8 16-bit unsigned integers __m128 y1, y2; // 2 xmm registers for 8 float values Quiero los primeros 4 uint16 en y1 y los siguientes 4 ...
SSE cargando entradas en __m128
¿Cuáles son los intrínsecos del gcc para cargar 4ints dentro__m128 y 8 entradas en__m256 (alineado / no alineado)? Qué pasaunsigned ints?
La forma más rápida de hacer una suma vectorial horizontal con instrucciones AVX [duplicado]
Esta pregunta ya tiene una respuesta aquí: Obtenga la suma de valores almacenados en __m256d con SSE / AVX [/questions/49941645/get-sum-of-values-stored-in-m256d-with-sse-avx] 2 respuestas Tengo un vector empaquetado de cuatro valores de coma ...