Resultados de la búsqueda a petición "sse"
Nueva sintaxis de instrucciones AVX
Tenía un código C escrito con algunas intel-intrinsincs. Después de compilarlo primero con avx y luego con los indicadores ssse3, obtuve dos códigos de ensamblaje bastante diferentes. P.ej: AVX: vpunpckhbw %xmm0, %xmm1, %xmm2SSSE3: movdqa ...
Desplazando 4 enteros a la derecha por diferentes valores SIMD
SSE no proporciona una forma de desplazar enteros empaquetados en una cantidad variable (puedo usar cualquier instrucción AVX y anteriores). Solo puedes hacer turnos uniformes. El resultado que estoy tratando de lograr para cada número entero en ...
Una carga SSE entera más rápida sin alinear que rara vez se usa [duplicado]
Esta pregunta ya tiene una respuesta aquí: ¿Cuál es la diferencia entre _mm256_lddqu_si256 y _mm256_loadu_si256 [/questions/47425851/whats-the-difference-between-mm256-lddqu-si256-and-mm256-loadu-si256] 1 respuestaMe gustaría saber más sobre ...
AVX2, ¿Cómo cargar eficientemente cuatro enteros en índices pares de un registro de 256 bits y copiar en índices impares?
Tengo una matriz alineada de enteros en la memoria que contiene los índices I0, I1, I2, I3. Mi objetivo es llevarlos a un registro __m256i que contenga I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. La parte difícil es llevarlos al registro de ...
Alineación y SSE comportamiento extraño
Intento trabajar con SSE y me enfrenté a un comportamiento extraño. Escribo un código simple para comparar dos cadenas con SSE Intrinsics, lo ejecuto y funciona. Pero luego entiendo que en mi código uno de puntero todavía no está alineado, pero ...
¿Cuál es la versión mínima de OS X para usar con AVX / AVX2?
Tengo una rutina de dibujo de imágenes que se compila varias veces para SSE, SSE2, SSE3, SSE4.1, SSE4.2, AVX y AVX2. Mi programa despacha dinámicamente una de estas variaciones binarias al verificar los indicadores de CPUID. En Windows, verifico ...
¿Cómo realizar eficientemente conversiones dobles / int64 con SSE / AVX?
SSE2 tiene instrucciones para convertir vectores entre flotantes de precisión simple y enteros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Pero no hay equivalentes para enteros de doble precisión y de 64 bits. En otras palabras, ...
Guía de Intel Intrinsics - Latencia y rendimiento
¿Alguien puede explicar los valores de Latencia y Rendimiento dados en elGuía intrínseca de Intel [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#]? ¿He entendido correctamente que la latencia es la cantidad de unidades de ...
Convención para mostrar registros vectoriales
¿Existe una convención para mostrar / escribir registros grandes, como los disponibles en el conjunto de instrucciones Intel AVX? Por ejemplo, si tiene 1 en el byte menos significativo, 20 en el byte más significativo y 0 en otro lugar de unxmm ...
Cómo calcular el producto Vector Dot utilizando las funciones intrínsecas SSE en C
Estoy tratando de multiplicar dos vectores juntos donde cada elemento de un vector se multiplica por el elemento en el mismo índice en el otro vector. Luego quiero sumar todos los elementos del vector resultante para obtener un número. Por ...