Resultados de la búsqueda a petición "sse"

16 la respuesta

¿Cómo se alinean los datos de un vector?

Si quiero procesar datos en unastd::vector con SSE, necesito una alineación de 16 bytes. ¿Cómo puedo lograr eso? ¿Necesito escribir mi propio asignador? ¿O el asignador predeterminado ya se alinea con los límites de 16 bytes?

6 la respuesta

agregar los componentes de un registro SSE

Quiero agregar los cuatro componentes de un registro SSE para obtener un único flotante. Así es como lo hago ahora: float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];Existe una instrucción SSE que lo logre directamente?

4 la respuesta

¿Cómo convierto _m128i en un int sin firmar con SSE?

He realizado una función para posterizar imágenes. // =( #define ARGB_COLOR(a, r, g, b) (((a) << 24) | ((r) << 16) | ((g) << 8) | (b)) inline UINT PosterizeColor(const UINT &color, const float &nColors) { __m128 clr = _mm_cvtepi32_ps( ...

6 la respuesta

SSE más lento que FPU?

Tengo un gran código, parte de cuyo cuerpo contiene este código: result = (nx * m_Lx + ny * m_Ly + m_Lz) / sqrt(nx * nx + ny * ny + 1);que he vectorizado de la siguiente manera (todo ya es unafloat): __m128 r = _mm_mul_ps(_mm_set_ps(ny, nx, ...

4 la respuesta

SSE: convertir un entero corto a flotante

Quiero convertir una matriz de números cortos sin signo para flotar usando SSE. Digamo __m128i xVal; // Has 8 16-bit unsigned integers __m128 y1, y2; // 2 xmm registers for 8 float values Quiero los primeros 4 uint16 en y1 y los siguientes 4 ...

2 la respuesta

SSE cargando entradas en __m128

¿Cuáles son los intrínsecos del gcc para cargar 4ints dentro__m128 y 8 entradas en__m256 (alineado / no alineado)? Qué pasaunsigned ints?

6 la respuesta

La forma más rápida de hacer una suma vectorial horizontal con instrucciones AVX [duplicado]

Esta pregunta ya tiene una respuesta aquí: Obtenga la suma de valores almacenados en __m256d con SSE / AVX [/questions/49941645/get-sum-of-values-stored-in-m256d-with-sse-avx] 2 respuestas Tengo un vector empaquetado de cuatro valores de coma ...