Resultados de la búsqueda a petición "avx2"

2 la respuesta

Cómo convertir eficientemente un mapa de bits de 8 bits a una matriz de enteros 0/1 con x86 SIMD

Quiero convertir un entero de 8 bits en una matriz de tamaño 8 con cada valor que contenga el valor de bit de un entero. Por ejemplo: tengoint8_t x = 8; Quiero convertir esto aint8_t array_x = {0,0,0,0,1,0,0,0}; Esto tiene que hacerse de ...

1 la respuesta

l informe @perf muestra esta función "__memset_avx2_unaligned_erms" tiene sobrecarga. ¿Significa esto que la memoria no está alineada?

Estoy tratando de perfilar mi código C ++ usando la herramienta perf. La implementación contiene código con instrucciones SSE / AVX / AVX2. Además de que el código se compila con-O3 -mavx2 -march=native banderas. ...

2 la respuesta

selectivamente elementos de una lista con instrucciones AVX2

Quiero acelerar la siguiente operación con las instrucciones de AVX2, pero no pude encontrar una manera de hacerlo. Me dan una gran variedaduint64_t data[100000] de uint64_t's, y una matrizunsigned char indices[100000] de bytes. Quiero generar ...

3 la respuesta

Implementación más rápida de la función exponencial usando AVX

Estoy buscando una aproximación eficiente (rápida) de la función exponencial que opera en elementos AVX (punto flotante de precisión simple). A saber -__m256 _mm256_exp_ps( __m256 x ) sin SVML. La precisión relativa debería ser algo así como ~ ...

1 la respuesta

bits de registro avx2 inversos

¿Hay una manera (rápida) de realizar bits inversos de valores int de 32 bits dentro del registro avx2? P.ej. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 ...

2 la respuesta

Implementación eficiente de log2 (__ m256d) en AVX2

SVML__m256d _mm256_log2_pd (__m256d a) no está disponible en otros compiladores que no sean Intel, y dicen que su rendimiento está limitado en los procesadores AMD. Hay algunas implementaciones en internet referidas en¿Faltan intrínsecos ...

2 la respuesta

¿Cuál es la secuencia de instrucciones de recopilación stride-3 más rápida?

La pregunta:¿Cuál es la secuencia más eficiente para generar una reunión stride-3 de elementos de 32 bits de la memoria? Si la memoria está organizada como: MEM = R0 G0 B0 R1 G1 B1 R2 G2 B2 R3 G3 B3 ...Queremos obtener tres registros ...

1 la respuesta

Implementación alternativa para la detección de conflictos en AVX2

AVX512CD contiene el intrínseco_mm512_conflict_epi32(__m512i a) devuelve un vector donde para cada elemento ena se establece un bit si tiene el mismo valor. ¿Hay alguna manera de hacer algo similar en AVX2? No estoy interesado en los bits ...

3 la respuesta

¿Puedo usar las unidades AVX FMA para hacer multiplicaciones enteras de 52 bits con exactitud de bit?

AXV2 no tiene multiplicaciones de enteros con fuentes mayores de 32 bits. Sí ofrece32 x 32 -> 32 [http://www.felixcloutier.com/x86/PMULLD.html]multiplica, así como32 x 32 -> 64 [http://www.felixcloutier.com/x86/PMULDQ.html]$432 x 32 ...

1 la respuesta

Comparación de vectorización automática

Tengo problemas para que mi g ++ 5.4 use vectorización para comparar. Básicamente quiero comparar 4 entradas sin signo usando vectorización. Mi primer enfoque fue directo: bool compare(unsigned int const pX[4]) { bool c1 = (temp[0] < 1); bool c2 ...