Resultados de la búsqueda a petición "avx"

2 la respuesta

rendimiento de SSE y AVX cuando el ancho de banda de memoria es limitado

2 la respuesta

Los intrínsecos de registro de AVX (_mm256_log_ps) faltan en g ++ - 4.8?

Estoy tratando de utilizar algunos intrínsecos AVX en mi código y me he topado con un muro de ladrillos con los intrínsecos del logaritmo.Usando la Guía de I...

2 la respuesta

Evitar que GCC utilice automáticamente las instrucciones AVX y FMA cuando se compila con -mavx y -mfma

¿Cómo puedo deshabilitar la auto-vectorización con instrucciones AVX y FMA? Todavía preferiría que el compilador emplee SSE y SSE2 automáticamente, pero no F...

2 la respuesta

¿Cuál es la diferencia entre vextracti128 y vextractf128?

2 la respuesta

Usando SIMD / AVX / SSE para el recorrido del árbol

Actualmente estoy investigando si sería posible acelerar un recorrido de árboles de van Emde Boas (o de cualquier árbol). Dada una única consulta de búsqueda...

2 la respuesta

FMA3 en GCC: cómo habilitar

Tengo un i5-4250U que tiene AVX2 y FMA3. Estoy probando un código de multiplicación de matriz densa en GCC 4.8.1 en Linux que escribí. A continuación hay una...

4 la respuesta

¿Cómo obtener datos de los registros AVX?

Usando MSVC 2013 y AVX 1, tengo 8 flotantes en un registro: __m256 foo = mm256_fmadd_ps(a,b,c);Ahora quiero llamarinline void print(float) {...} para las 8 carrozas. Parece que elIntel Lo intrínseco de AVX haría esto bastante ...

1 la respuesta

Nueva sintaxis de instrucciones AVX

Tenía un código C escrito con algunas intel-intrinsincs. Después de compilarlo primero con avx y luego con los indicadores ssse3, obtuve dos códigos de ensamblaje bastante diferentes. P.ej: AVX: vpunpckhbw %xmm0, %xmm1, %xmm2SSSE3: movdqa ...

1 la respuesta

Desplazando 4 enteros a la derecha por diferentes valores SIMD

SSE no proporciona una forma de desplazar enteros empaquetados en una cantidad variable (puedo usar cualquier instrucción AVX y anteriores). Solo puedes hacer turnos uniformes. El resultado que estoy tratando de lograr para cada número entero en ...

1 la respuesta

AVX2, ¿Cómo cargar eficientemente cuatro enteros en índices pares de un registro de 256 bits y copiar en índices impares?

Tengo una matriz alineada de enteros en la memoria que contiene los índices I0, I1, I2, I3. Mi objetivo es llevarlos a un registro __m256i que contenga I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. La parte difícil es llevarlos al registro de ...