Resultados da pesquisa a pedido "avx2"

2 a resposta

Implementação eficiente do log2 (__ m256d) no AVX2

SVML's__m256d _mm256_log2_pd (__m256d a) não está disponível em outros compiladores além da Intel e eles afirmam que seu desempenho é prejudicial nos processadores AMD. Existem algumas implementações na internet mencionadas em Intrínsecas de log ...

1 a resposta

bits de registro avx2 reversos

Existe uma maneira (rápida) de executar bits reversos dos valores int de 32 bits no registro avx2? Por exemplo. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 ...

1 a resposta

Implementação de fallback para detecção de conflitos no AVX2

AVX512CD contém o intrínseco_mm512_conflict_epi32(__m512i a) retorna um vetor onde para cada elementoa um bit é definido se tiver o mesmo valor. Existe uma maneira de fazer algo semelhante no AVX2? Não estou interessado nos bits extact; só ...

3 a resposta

Implementação mais rápida da função exponencial usando o AVX

Estou procurando uma aproximação eficiente (rápida) da função exponencial que opera em elementos AVX (ponto flutuante de precisão única). Ou seja -__m256 _mm256_exp_ps( __m256 x ) sem SVML. Precisão relativa deve ser algo como ~ 1e-6 ou ~ 20 ...

2 a resposta

Desabilitar funções AVX2 em processadores que não sejam da Haswell

Eu escrevi algum código AVX2 para ser executado em um processador Haswell i7. A mesma base de código também é usada em processadores não-Haswell, onde o mesmo código deve ser substituído por seus equivalentes SSE. Eu queria saber se existe uma ...

1 a resposta

A maneira mais rápida de descompactar 32 bits em um vetor SIMD de 32 bytes

Tendo 32 bits armazenados em umuint32_t na memória, qual é a maneira mais rápida de descompactar cada bit em um elemento de byte separado de um registro AVX? Os bits podem estar em qualquer posição dentro de seus respectivos bytes. Edit: para ...

2 a resposta

Em que situação o AVX2 coletaria instruções seria mais rápido do que carregar os dados individualmente?

Eu tenho investigado o uso das novas instruções de coleta do conjunto de instruções AVX2. Especificamente, decidi comparar um problema simples, em que uma matriz de ponto flutuante é permutada e adicionada a outra. Em c, isso pode ser ...

2 a resposta

seletivamente copiar elementos de uma lista com instruções do AVX2

Desejo acelerar a operação a seguir com as instruções do AVX2, mas não consegui encontrar uma maneira de fazê-lo. Recebo uma grande variedadeuint64_t data[100000] de uint64_t e uma matrizunsigned char indices[100000] de bytes. Eu quero gerar uma ...

3 a resposta

Bitmap uint8_t ideal em um vetor "bool" SIMD de 8 x 32 bits

Como parte de um algoritmo de compactação, estou procurando a maneira ideal de obter o seguinte: Eu tenho um bitmap simples em umuint8_t. Por exemplo 01010011 O que eu quero é um__m256i do formulário: (0, maxint, 0, maxint, 0, 0, ...

2 a resposta

Acesso à memória alinhado e não alinhado com intrínsecas AVX / AVX2

De acordo com o Manual do desenvolvedor de software da Intel (seção 14.9), o AVX relaxou os requisitos de alinhamento dos acessos à memória. Se os dados forem carregados diretamente em uma instrução de processamento, por exemplo, vaddps ...