Resultados da pesquisa a pedido "avx2"

2 a resposta

seletivamente copiar elementos de uma lista com instruções do AVX2

Desejo acelerar a operação a seguir com as instruções do AVX2, mas não consegui encontrar uma maneira de fazê-lo. Recebo uma grande variedadeuint64_t data[100000] de uint64_t e uma matrizunsigned char indices[100000] de bytes. Eu quero gerar uma ...

2 a resposta

Implementação eficiente do log2 (__ m256d) no AVX2

SVML's__m256d _mm256_log2_pd (__m256d a) não está disponível em outros compiladores além da Intel e eles afirmam que seu desempenho é prejudicial nos processadores AMD. Existem algumas implementações na internet mencionadas em Intrínsecas de log ...

2 a resposta

Como converter com eficiência um bitmap de 8 bits em uma matriz de números inteiros 0/1 com x86 SIMD

Eu quero converter inteiro de 8 bits em uma matriz de tamanho 8 com cada valor contendo o valor de bit de um inteiro. Por exemplo: eu tenhoint8_t x = 8; Eu quero converter isso paraint8_t array_x = {0,0,0,0,1,0,0,0}; Isso deve ser feito com ...

1 a resposta

AVX2, como carregar com eficiência quatro números inteiros em índices pares de um registro de 256 bits e copiar em índices ímpares?

Eu tenho uma matriz alinhada de números inteiros na memória contendo os índices I0, I1, I2, I3. Meu objetivo é colocá-los em um registro __m256i contendo I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. A parte mais difícil é colocá-los ...

2 a resposta

aneira mais rápida de multiplicar uma matriz de int64_

Quero vetorizar a multiplicação de duas matrizes alinhadas à memória. Não encontrei nenhuma maneira de multiplicar 64 * 64 bits no AVX / AVX2, então apenas desenrolei o loop e carregue / armazene o AVX2. Existe uma maneira mais rápida de fazer ...

1 a resposta

A maneira mais rápida de descompactar 32 bits em um vetor SIMD de 32 bytes

Tendo 32 bits armazenados em umuint32_t na memória, qual é a maneira mais rápida de descompactar cada bit em um elemento de byte separado de um registro AVX? Os bits podem estar em qualquer posição dentro de seus respectivos bytes. Edit: para ...

3 a resposta

Compactação de matriz esparsa usando SIMD (AVX2)

2 a resposta

Acesso à memória alinhado e não alinhado com intrínsecas AVX / AVX2

De acordo com o Manual do desenvolvedor de software da Intel (seção 14.9), o AVX relaxou os requisitos de alinhamento dos acessos à memória. Se os dados forem carregados diretamente em uma instrução de processamento, por exemplo, vaddps ...

1 a resposta

bits de registro avx2 reversos

Existe uma maneira (rápida) de executar bits reversos dos valores int de 32 bits no registro avx2? Por exemplo. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 ...

1 a resposta

O relatório perf mostra que esta função “__memset_avx2_unaligned_erms” possui sobrecarga. isso significa que a memória está desalinhada?

Estou tentando criar um perfil do meu código C ++ usando a ferramenta perf. A implementação contém código com instruções SSE / AVX / AVX2. Além desse código, é compilado com-O3 -mavx2 -march=native bandeiras. Acredito__memset_avx2_unaligned_erms ...