Resultados de la búsqueda a petición "avx"
Los intrínsecos de registro de AVX (_mm256_log_ps) faltan en g ++ - 4.8?
Estoy tratando de utilizar algunos intrínsecos AVX en mi código y me he topado con un muro de ladrillos con los intrínsecos del logaritmo.Usando la Guía de I...
Evitar que GCC utilice automáticamente las instrucciones AVX y FMA cuando se compila con -mavx y -mfma
¿Cómo puedo deshabilitar la auto-vectorización con instrucciones AVX y FMA? Todavía preferiría que el compilador emplee SSE y SSE2 automáticamente, pero no F...
Usando SIMD / AVX / SSE para el recorrido del árbol
Actualmente estoy investigando si sería posible acelerar un recorrido de árboles de van Emde Boas (o de cualquier árbol). Dada una única consulta de búsqueda...
FMA3 en GCC: cómo habilitar
Tengo un i5-4250U que tiene AVX2 y FMA3. Estoy probando un código de multiplicación de matriz densa en GCC 4.8.1 en Linux que escribí. A continuación hay una...
¿Cómo obtener datos de los registros AVX?
Usando MSVC 2013 y AVX 1, tengo 8 flotantes en un registro: __m256 foo = mm256_fmadd_ps(a,b,c);Ahora quiero llamarinline void print(float) {...} para las 8 carrozas. Parece que elIntel Lo intrínseco de AVX haría esto bastante ...
Nueva sintaxis de instrucciones AVX
Tenía un código C escrito con algunas intel-intrinsincs. Después de compilarlo primero con avx y luego con los indicadores ssse3, obtuve dos códigos de ensamblaje bastante diferentes. P.ej: AVX: vpunpckhbw %xmm0, %xmm1, %xmm2SSSE3: movdqa ...
Desplazando 4 enteros a la derecha por diferentes valores SIMD
SSE no proporciona una forma de desplazar enteros empaquetados en una cantidad variable (puedo usar cualquier instrucción AVX y anteriores). Solo puedes hacer turnos uniformes. El resultado que estoy tratando de lograr para cada número entero en ...
AVX2, ¿Cómo cargar eficientemente cuatro enteros en índices pares de un registro de 256 bits y copiar en índices impares?
Tengo una matriz alineada de enteros en la memoria que contiene los índices I0, I1, I2, I3. Mi objetivo es llevarlos a un registro __m256i que contenga I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. La parte difícil es llevarlos al registro de ...