Resultados da pesquisa a pedido "avx"

4 a resposta

Como obter dados dos registros AVX?

Usando o MSVC 2013 e o AVX 1, tenho 8 carros alegóricos em um registro: __m256 foo = mm256_fmadd_ps(a,b,c);Agora eu quero ligarinline void print(float) {...} para todos os 8 carros alegóricos. Parece que oIntel A intricada AVX tornaria isso ...

2 a resposta

aneira mais rápida de multiplicar uma matriz de int64_

Quero vetorizar a multiplicação de duas matrizes alinhadas à memória. Não encontrei nenhuma maneira de multiplicar 64 * 64 bits no AVX / AVX2, então apenas desenrolei o loop e carregue / armazene o AVX2. Existe uma maneira mais rápida de fazer ...

1 a resposta

Onde está o intrínseco '_mm256_pow_ps' de Clang?

Não consigo encontrar os intrínsecos para _mm_pow_ps ou _mm256_pow_ps, os quais devem estar incluídos no 'immintrin.h'. Clang não define isso ou eles estão em um cabeçalho que não estou incluindo?

1 a resposta

existe uma instrução inversa à instrução movemask no intel avx

As instruções movemask usam um __m256i e retornam um int32 em que cada bit (os primeiros 4, 8 ou todos os 32 bits, dependendo do tipo de elemento do vetor de entrada) é o bit mais significativo do elemento vetorial correspondent Gostaria de ...

1 a resposta

A maneira mais eficiente de obter __m256 de somas horizontais de 8 fonte __m256 vetores

Eu sei somar um__m256 para obter um único valor somado. No entanto, tenho 8 vetores como Input 1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7], ....., ....., 8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], ...

1 a resposta

_mm_testc_ps e _mm_testc_pd vs _mm_testc_si128

Como você sabe, os dois primeiros são intrínsecos específicos ao AVX e o segundo é um intrínseco SSE4.1. Ambos os conjuntos de intrínsecos podem ser usados para verificar a igualdade de 2 vetores de ponto flutuante. Meu caso de uso específico ...

2 a resposta

Os índices de bytes diferentes de zero de um registro SSE / AVX

Se o valor de um registro SSE / AVX for tal que todos os seus bytes sejam 0 ou 1, existe alguma maneira de obter com eficiência os índices de todos os elementos diferentes de zero? Por exemplo, se o valor xmm for | r0 = 0 | r1 = 1 | r2 = 0 | r3 ...

1 a resposta

Quais são as melhores seqüências de instruções para gerar constantes vetoriais em tempo real?

"Melhor" significa o menor número de instruções (ou o menor número de uops, se houver alguma instrução decodificada para mais de um uop). O tamanho do código da máquina em bytes é um desempatador para igual número de insn. A geração constante é, ...

1 a resposta

Carregando 8 caracteres da memória em uma variável __m256, como flutuadores de precisão única compactados

Estou otimizando um algoritmo para desfoque gaussiano em uma imagem e quero substituir o uso de um buffer flutuante [8] no código abaixo por uma variável intrínseca __m256. Que série de instruções é mais adequada para esta tarefa? // unsigned ...

2 a resposta

Gere automaticamente instruções FMA no MSVC

MSVC suporta instruções AVX / AVX2 há anos e de acordo comesta postagem no blog msdn [http://blogs.msdn.com/b/vcblog/archive/2014/02/28/avx2-support-in-visual-studio-c-compiler.aspx] , ele pode gerar automaticamenteFMA (Multiplicado com ...