Resultados de la búsqueda a petición "avx"

2 la respuesta

selectivamente elementos de una lista con instrucciones AVX2

Quiero acelerar la siguiente operación con las instrucciones de AVX2, pero no pude encontrar una manera de hacerlo. Me dan una gran variedaduint64_t data[100000] de uint64_t's, y una matrizunsigned char indices[100000] de bytes. Quiero generar ...

5 la respuesta

¿Cómo verificar si una CPU admite el conjunto de instrucciones SSE3?

Es válido el siguiente código para verificar si una CPU admite el conjunto de instrucciones SSE3? Utilizando laIsProcessorFeaturePresent()a función @ aparentemente no funciona en Windows XP (verhttp: //msdn.microsoft.com/en-us/library/ms724482 ...

2 la respuesta

FMA3 en GCC: cómo habilitar

Tengo un i5-4250U que tiene AVX2 y FMA3. Estoy probando un código de multiplicación de matriz densa en GCC 4.8.1 en Linux que escribí. A continuación hay una...

4 la respuesta

¿Las variables SSE / AVX locales estáticas / estáticas bloquean un registro xmm / ymm?

Cuando se usan intrínsecos SSE, a menudo se requieren cero vectores. Una forma de evitar crear una variable cero dentro de una función cada vez que se llama a la función (cada vez que se llama efectivamente alguna instrucción de vector xor) sería ...

2 la respuesta

¿Cómo sumar __m256 horizontalmente?

Me gustaría sumar horizontalmente los componentes de un

2 la respuesta

rendimiento de SSE y AVX cuando el ancho de banda de memoria es limitado

2 la respuesta

Utilizando registros ymm como una ubicación de almacenamiento "similar a la memoria"

Considere el siguiente bucle en x86: ; on entry, rdi has the number of iterations .top: ; some magic happens here to calculate a result in rax mov [array + rdi * 8], rax ; store result in output array dec rdi jnz .top Es sencillo: algo calcula ...

1 la respuesta

Nueva sintaxis de instrucciones AVX

Tenía un código C escrito con algunas intel-intrinsincs. Después de compilarlo primero con avx y luego con los indicadores ssse3, obtuve dos códigos de ensamblaje bastante diferentes. P.ej: AVX: vpunpckhbw %xmm0, %xmm1, %xmm2SSSE3: movdqa ...

0 la respuesta

¿Cómo realizar eficientemente conversiones dobles / int64 con SSE / AVX?

SSE2 tiene instrucciones para convertir vectores entre flotantes de precisión simple y enteros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Pero no hay equivalentes para enteros de doble precisión y de 64 bits. En otras palabras, ...

2 la respuesta

FLOPS por ciclo para Sandy-Bridge y haswell SSE2 / AVX / AVX2

Estoy confundido sobre cuántos fracasos por ciclo por núcleo se pueden hacer con Sandy-Bridge y Haswell. Como lo entiendo con SSE, deben ser 4 fracasos por c...