Resultados da pesquisa a pedido "sse"
Valores de 128 bits - dos registros XMM ao uso geral
Eu tenho algumas perguntas relacionadas à movimentação de valores XMM para registros de uso geral. Todas as questões encontradas no SO se concentram no oposto, a saber, a transferência de valores nos registros gp para o XMM. Como mover um valor ...
Erro: transmitir tipos de dados definidos pelo usuário em c
Esta é uma visão mais simples do meu Problema. Quero converter um valor flutuante no tipo definido v4si (desejo usar a Operação SIMD para otimização.) Por favor, ajude a converter o valor flutuante / duplo em um tipo definido. #include<stdio.h> ...
As operações escalares do AVX são muito mais rápidas
Eu testo a seguinte função simples void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }com matrizes muito grandes para que ele seja vinculado à largura de banda da memória. O código de teste que eu uso está abaixo. Quando ...
NÃO está faltando no SSE, AVX?
É minha imaginação ou é umPNOT instrução ausente do SSE e AVX? Ou seja, uma instrução que vira cada bit no vetor. Se sim, existe uma maneira melhor de emular isso do quePXOR com um vetor de todos os 1s? Muito chato, pois preciso configurar um ...
como posso usar instruções SVML [duplicado]
Esta pergunta já tem uma resposta aqui: Erro C ++: '_mm_sin_ps' não foi declarado neste escopo [/questions/31978592/c-error-mm-sin-ps-was-not-declared-in-this-scope] 3 respostasOnde é intrínseco o '_mm256_pow_ps' de ...
Como ativar a autovectorização sse3 no gcc
Eu tenho um loop simples com leva o produto de n números complexos. Ao executar esse loop milhões de vezes, quero que seja o mais rápido possível. Entendo que é possível fazer isso rapidamente usando intrínsecas SSE3 e gcc, mas estou interessado ...
Convenção para exibição de registros vetoriais
Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...
Por que esse código SSE é 6 vezes mais lento sem o VZEROUPPER no Skylake?
Eu tenho tentado descobrir um problema de desempenho em um aplicativo e finalmente o reduzi a um problema realmente estranho. O código a seguir é executado 6 vezes mais devagar em uma CPU Skylake (i5-6500) se oVZEROUPPER a instrução é comentada. ...
Como executar com eficiência conversões duplas / int64 com SSE / AVX?
O SSE2 possui instruções para converter vetores entre flutuadores de precisão única e números inteiros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Mas não há equivalentes para números inteiros de precisão dupla e 64 bits. Em outras palavras, ...
latency vs throughput em intel intrinsics
Acho que tenho um entendimento decente da diferença entre latência e taxa de transferência, em geral. No entanto, as implicações da latência na taxa de transferência de instruções não são claras para o Intel Intrinsics, principalmente ao usar ...