Resultados da pesquisa a pedido "avx2"
O relatório perf mostra que esta função “__memset_avx2_unaligned_erms” possui sobrecarga. isso significa que a memória está desalinhada?
Estou tentando criar um perfil do meu código C ++ usando a ferramenta perf. A implementação contém código com instruções SSE / AVX / AVX2. Além desse código, é compilado com-O3 -mavx2 -march=native bandeiras. Acredito__memset_avx2_unaligned_erms ...
Carregando 8 caracteres da memória em uma variável __m256, como flutuadores de precisão única compactados
Estou otimizando um algoritmo para desfoque gaussiano em uma imagem e quero substituir o uso de um buffer flutuante [8] no código abaixo por uma variável intrínseca __m256. Que série de instruções é mais adequada para esta tarefa? // unsigned ...
Como converter com eficiência um bitmap de 8 bits em uma matriz de números inteiros 0/1 com x86 SIMD
Eu quero converter inteiro de 8 bits em uma matriz de tamanho 8 com cada valor contendo o valor de bit de um inteiro. Por exemplo: eu tenhoint8_t x = 8; Eu quero converter isso paraint8_t array_x = {0,0,0,0,1,0,0,0}; Isso deve ser feito com ...
existe uma instrução inversa à instrução movemask no intel avx
As instruções movemask usam um __m256i e retornam um int32 em que cada bit (os primeiros 4, 8 ou todos os 32 bits, dependendo do tipo de elemento do vetor de entrada) é o bit mais significativo do elemento vetorial correspondent Gostaria de ...
aneira mais rápida de multiplicar uma matriz de int64_
Quero vetorizar a multiplicação de duas matrizes alinhadas à memória. Não encontrei nenhuma maneira de multiplicar 64 * 64 bits no AVX / AVX2, então apenas desenrolei o loop e carregue / armazene o AVX2. Existe uma maneira mais rápida de fazer ...