Resultados da pesquisa a pedido "avx"
Como obter dados dos registros AVX?
Usando o MSVC 2013 e o AVX 1, tenho 8 carros alegóricos em um registro: __m256 foo = mm256_fmadd_ps(a,b,c);Agora eu quero ligarinline void print(float) {...} para todos os 8 carros alegóricos. Parece que oIntel A intricada AVX tornaria isso ...
aneira mais rápida de multiplicar uma matriz de int64_
Quero vetorizar a multiplicação de duas matrizes alinhadas à memória. Não encontrei nenhuma maneira de multiplicar 64 * 64 bits no AVX / AVX2, então apenas desenrolei o loop e carregue / armazene o AVX2. Existe uma maneira mais rápida de fazer ...
Onde está o intrínseco '_mm256_pow_ps' de Clang?
Não consigo encontrar os intrínsecos para _mm_pow_ps ou _mm256_pow_ps, os quais devem estar incluídos no 'immintrin.h'. Clang não define isso ou eles estão em um cabeçalho que não estou incluindo?
existe uma instrução inversa à instrução movemask no intel avx
As instruções movemask usam um __m256i e retornam um int32 em que cada bit (os primeiros 4, 8 ou todos os 32 bits, dependendo do tipo de elemento do vetor de entrada) é o bit mais significativo do elemento vetorial correspondent Gostaria de ...
A maneira mais eficiente de obter __m256 de somas horizontais de 8 fonte __m256 vetores
Eu sei somar um__m256 para obter um único valor somado. No entanto, tenho 8 vetores como Input 1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7], ....., ....., 8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], ...
_mm_testc_ps e _mm_testc_pd vs _mm_testc_si128
Como você sabe, os dois primeiros são intrínsecos específicos ao AVX e o segundo é um intrínseco SSE4.1. Ambos os conjuntos de intrínsecos podem ser usados para verificar a igualdade de 2 vetores de ponto flutuante. Meu caso de uso específico ...
Os índices de bytes diferentes de zero de um registro SSE / AVX
Se o valor de um registro SSE / AVX for tal que todos os seus bytes sejam 0 ou 1, existe alguma maneira de obter com eficiência os índices de todos os elementos diferentes de zero? Por exemplo, se o valor xmm for | r0 = 0 | r1 = 1 | r2 = 0 | r3 ...
Quais são as melhores seqüências de instruções para gerar constantes vetoriais em tempo real?
"Melhor" significa o menor número de instruções (ou o menor número de uops, se houver alguma instrução decodificada para mais de um uop). O tamanho do código da máquina em bytes é um desempatador para igual número de insn. A geração constante é, ...
Carregando 8 caracteres da memória em uma variável __m256, como flutuadores de precisão única compactados
Estou otimizando um algoritmo para desfoque gaussiano em uma imagem e quero substituir o uso de um buffer flutuante [8] no código abaixo por uma variável intrínseca __m256. Que série de instruções é mais adequada para esta tarefa? // unsigned ...
Gere automaticamente instruções FMA no MSVC
MSVC suporta instruções AVX / AVX2 há anos e de acordo comesta postagem no blog msdn [http://blogs.msdn.com/b/vcblog/archive/2014/02/28/avx2-support-in-visual-studio-c-compiler.aspx] , ele pode gerar automaticamenteFMA (Multiplicado com ...