Resultados da pesquisa a pedido "avx2"
Implementação eficiente do log2 (__ m256d) no AVX2
SVML's__m256d _mm256_log2_pd (__m256d a) não está disponível em outros compiladores além da Intel e eles afirmam que seu desempenho é prejudicial nos processadores AMD. Existem algumas implementações na internet mencionadas em Intrínsecas de log ...
bits de registro avx2 reversos
Existe uma maneira (rápida) de executar bits reversos dos valores int de 32 bits no registro avx2? Por exemplo. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 ...
Implementação de fallback para detecção de conflitos no AVX2
AVX512CD contém o intrínseco_mm512_conflict_epi32(__m512i a) retorna um vetor onde para cada elementoa um bit é definido se tiver o mesmo valor. Existe uma maneira de fazer algo semelhante no AVX2? Não estou interessado nos bits extact; só ...
Implementação mais rápida da função exponencial usando o AVX
Estou procurando uma aproximação eficiente (rápida) da função exponencial que opera em elementos AVX (ponto flutuante de precisão única). Ou seja -__m256 _mm256_exp_ps( __m256 x ) sem SVML. Precisão relativa deve ser algo como ~ 1e-6 ou ~ 20 ...
Desabilitar funções AVX2 em processadores que não sejam da Haswell
Eu escrevi algum código AVX2 para ser executado em um processador Haswell i7. A mesma base de código também é usada em processadores não-Haswell, onde o mesmo código deve ser substituído por seus equivalentes SSE. Eu queria saber se existe uma ...
A maneira mais rápida de descompactar 32 bits em um vetor SIMD de 32 bytes
Tendo 32 bits armazenados em umuint32_t na memória, qual é a maneira mais rápida de descompactar cada bit em um elemento de byte separado de um registro AVX? Os bits podem estar em qualquer posição dentro de seus respectivos bytes. Edit: para ...
Em que situação o AVX2 coletaria instruções seria mais rápido do que carregar os dados individualmente?
Eu tenho investigado o uso das novas instruções de coleta do conjunto de instruções AVX2. Especificamente, decidi comparar um problema simples, em que uma matriz de ponto flutuante é permutada e adicionada a outra. Em c, isso pode ser ...
seletivamente copiar elementos de uma lista com instruções do AVX2
Desejo acelerar a operação a seguir com as instruções do AVX2, mas não consegui encontrar uma maneira de fazê-lo. Recebo uma grande variedadeuint64_t data[100000] de uint64_t e uma matrizunsigned char indices[100000] de bytes. Eu quero gerar uma ...
Bitmap uint8_t ideal em um vetor "bool" SIMD de 8 x 32 bits
Como parte de um algoritmo de compactação, estou procurando a maneira ideal de obter o seguinte: Eu tenho um bitmap simples em umuint8_t. Por exemplo 01010011 O que eu quero é um__m256i do formulário: (0, maxint, 0, maxint, 0, 0, ...
Acesso à memória alinhado e não alinhado com intrínsecas AVX / AVX2
De acordo com o Manual do desenvolvedor de software da Intel (seção 14.9), o AVX relaxou os requisitos de alinhamento dos acessos à memória. Se os dados forem carregados diretamente em uma instrução de processamento, por exemplo, vaddps ...