Resultados de la búsqueda a petición "sse"

1 la respuesta

Nueva sintaxis de instrucciones AVX

Tenía un código C escrito con algunas intel-intrinsincs. Después de compilarlo primero con avx y luego con los indicadores ssse3, obtuve dos códigos de ensamblaje bastante diferentes. P.ej: AVX: vpunpckhbw %xmm0, %xmm1, %xmm2SSSE3: movdqa ...

1 la respuesta

Desplazando 4 enteros a la derecha por diferentes valores SIMD

SSE no proporciona una forma de desplazar enteros empaquetados en una cantidad variable (puedo usar cualquier instrucción AVX y anteriores). Solo puedes hacer turnos uniformes. El resultado que estoy tratando de lograr para cada número entero en ...

1 la respuesta

Una carga SSE entera más rápida sin alinear que rara vez se usa [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cuál es la diferencia entre _mm256_lddqu_si256 y _mm256_loadu_si256 [/questions/47425851/whats-the-difference-between-mm256-lddqu-si256-and-mm256-loadu-si256] 1 respuestaMe gustaría saber más sobre ...

1 la respuesta

AVX2, ¿Cómo cargar eficientemente cuatro enteros en índices pares de un registro de 256 bits y copiar en índices impares?

Tengo una matriz alineada de enteros en la memoria que contiene los índices I0, I1, I2, I3. Mi objetivo es llevarlos a un registro __m256i que contenga I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. La parte difícil es llevarlos al registro de ...

1 la respuesta

Alineación y SSE comportamiento extraño

Intento trabajar con SSE y me enfrenté a un comportamiento extraño. Escribo un código simple para comparar dos cadenas con SSE Intrinsics, lo ejecuto y funciona. Pero luego entiendo que en mi código uno de puntero todavía no está alineado, pero ...

2 la respuesta

¿Cuál es la versión mínima de OS X para usar con AVX / AVX2?

Tengo una rutina de dibujo de imágenes que se compila varias veces para SSE, SSE2, SSE3, SSE4.1, SSE4.2, AVX y AVX2. Mi programa despacha dinámicamente una de estas variaciones binarias al verificar los indicadores de CPUID. En Windows, verifico ...

0 la respuesta

¿Cómo realizar eficientemente conversiones dobles / int64 con SSE / AVX?

SSE2 tiene instrucciones para convertir vectores entre flotantes de precisión simple y enteros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Pero no hay equivalentes para enteros de doble precisión y de 64 bits. En otras palabras, ...

1 la respuesta

Guía de Intel Intrinsics - Latencia y rendimiento

¿Alguien puede explicar los valores de Latencia y Rendimiento dados en elGuía intrínseca de Intel [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#]? ¿He entendido correctamente que la latencia es la cantidad de unidades de ...

2 la respuesta

Convención para mostrar registros vectoriales

¿Existe una convención para mostrar / escribir registros grandes, como los disponibles en el conjunto de instrucciones Intel AVX? Por ejemplo, si tiene 1 en el byte menos significativo, 20 en el byte más significativo y 0 en otro lugar de unxmm ...

4 la respuesta

Cómo calcular el producto Vector Dot utilizando las funciones intrínsecas SSE en C

Estoy tratando de multiplicar dos vectores juntos donde cada elemento de un vector se multiplica por el elemento en el mismo índice en el otro vector. Luego quiero sumar todos los elementos del vector resultante para obtener un número. Por ...