Resultados da pesquisa a pedido "avx2"
seletivamente copiar elementos de uma lista com instruções do AVX2
Desejo acelerar a operação a seguir com as instruções do AVX2, mas não consegui encontrar uma maneira de fazê-lo. Recebo uma grande variedadeuint64_t data[100000] de uint64_t e uma matrizunsigned char indices[100000] de bytes. Eu quero gerar uma ...
Implementação eficiente do log2 (__ m256d) no AVX2
SVML's__m256d _mm256_log2_pd (__m256d a) não está disponível em outros compiladores além da Intel e eles afirmam que seu desempenho é prejudicial nos processadores AMD. Existem algumas implementações na internet mencionadas em Intrínsecas de log ...
Como converter com eficiência um bitmap de 8 bits em uma matriz de números inteiros 0/1 com x86 SIMD
Eu quero converter inteiro de 8 bits em uma matriz de tamanho 8 com cada valor contendo o valor de bit de um inteiro. Por exemplo: eu tenhoint8_t x = 8; Eu quero converter isso paraint8_t array_x = {0,0,0,0,1,0,0,0}; Isso deve ser feito com ...
AVX2, como carregar com eficiência quatro números inteiros em índices pares de um registro de 256 bits e copiar em índices ímpares?
Eu tenho uma matriz alinhada de números inteiros na memória contendo os índices I0, I1, I2, I3. Meu objetivo é colocá-los em um registro __m256i contendo I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. A parte mais difícil é colocá-los ...
aneira mais rápida de multiplicar uma matriz de int64_
Quero vetorizar a multiplicação de duas matrizes alinhadas à memória. Não encontrei nenhuma maneira de multiplicar 64 * 64 bits no AVX / AVX2, então apenas desenrolei o loop e carregue / armazene o AVX2. Existe uma maneira mais rápida de fazer ...
A maneira mais rápida de descompactar 32 bits em um vetor SIMD de 32 bytes
Tendo 32 bits armazenados em umuint32_t na memória, qual é a maneira mais rápida de descompactar cada bit em um elemento de byte separado de um registro AVX? Os bits podem estar em qualquer posição dentro de seus respectivos bytes. Edit: para ...
Acesso à memória alinhado e não alinhado com intrínsecas AVX / AVX2
De acordo com o Manual do desenvolvedor de software da Intel (seção 14.9), o AVX relaxou os requisitos de alinhamento dos acessos à memória. Se os dados forem carregados diretamente em uma instrução de processamento, por exemplo, vaddps ...
bits de registro avx2 reversos
Existe uma maneira (rápida) de executar bits reversos dos valores int de 32 bits no registro avx2? Por exemplo. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 ...
O relatório perf mostra que esta função “__memset_avx2_unaligned_erms” possui sobrecarga. isso significa que a memória está desalinhada?
Estou tentando criar um perfil do meu código C ++ usando a ferramenta perf. A implementação contém código com instruções SSE / AVX / AVX2. Além desse código, é compilado com-O3 -mavx2 -march=native bandeiras. Acredito__memset_avx2_unaligned_erms ...