Resultados de la búsqueda a petición "avx2"

1 la respuesta

La forma más rápida de descomprimir 32 bits en un vector SIMD de 32 bytes

Tener 32 bits almacenados en unuint32_t en la memoria, ¿cuál es la forma más rápida de descomprimir cada bit en un elemento de byte separado de un registro AVX? Los bits pueden estar en cualquier posición dentro de sus respectivos bytes. Editar: ...

1 la respuesta

Carga de 8 caracteres de la memoria en una variable __m256 como flotantes de precisión individuales empaquetados

Estoy optimizando un algoritmo para el desenfoque gaussiano en una imagen y quiero reemplazar el uso de un búfer flotante [8] en el código a continuación con una variable intrínseca __m256. ¿Qué serie de instrucciones es la más adecuada para esta ...

1 la respuesta

¿Dónde está VPERMB en AVX2?

AVX2 tiene muchas cosas buenas. Por ejemplo, tiene muchas instrucciones que son estrictamente más poderosas que sus precursores. TomarVPERMD [http://www.felixcloutier.com/x86/VPERMD.html]: le permite transmitir / mezclar / permutar de manera ...

1 la respuesta

AVX2, ¿Cómo cargar eficientemente cuatro enteros en índices pares de un registro de 256 bits y copiar en índices impares?

Tengo una matriz alineada de enteros en la memoria que contiene los índices I0, I1, I2, I3. Mi objetivo es llevarlos a un registro __m256i que contenga I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. La parte difícil es llevarlos al registro de ...

1 la respuesta

Comparación de vectorización automática

Tengo problemas para que mi g ++ 5.4 use vectorización para comparar. Básicamente quiero comparar 4 entradas sin signo usando vectorización. Mi primer enfoque fue directo: bool compare(unsigned int const pX[4]) { bool c1 = (temp[0] < 1); bool c2 ...

1 la respuesta

Implementación alternativa para la detección de conflictos en AVX2

AVX512CD contiene el intrínseco_mm512_conflict_epi32(__m512i a) devuelve un vector donde para cada elemento ena se establece un bit si tiene el mismo valor. ¿Hay alguna manera de hacer algo similar en AVX2? No estoy interesado en los bits ...

1 la respuesta

bits de registro avx2 inversos

¿Hay una manera (rápida) de realizar bits inversos de valores int de 32 bits dentro del registro avx2? P.ej. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 ...

1 la respuesta

¿hay una instrucción inversa a la instrucción movemask en intel avx2?

Las instrucciones de máscara de movimiento toman un __m256i y devuelven un int32 donde cada bit (ya sea los primeros 4, 8 o los 32 bits dependiendo del tipo de elemento del vector de entrada) es el bit más significativo del elemento vectorial ...

1 la respuesta

¿Por qué Intel anuncia algunas latencias AVX de Haswell como 3 veces más lentas que Sandy Bridge?

En el Intelintrinsics ...

1 la respuesta

l informe @perf muestra esta función "__memset_avx2_unaligned_erms" tiene sobrecarga. ¿Significa esto que la memoria no está alineada?

Estoy tratando de perfilar mi código C ++ usando la herramienta perf. La implementación contiene código con instrucciones SSE / AVX / AVX2. Además de que el código se compila con-O3 -mavx2 -march=native banderas. ...