Resultados da pesquisa a pedido "sse"

3 a resposta

Valores de 128 bits - dos registros XMM ao uso geral

Eu tenho algumas perguntas relacionadas à movimentação de valores XMM para registros de uso geral. Todas as questões encontradas no SO se concentram no oposto, a saber, a transferência de valores nos registros gp para o XMM. Como mover um valor ...

2 a resposta

Erro: transmitir tipos de dados definidos pelo usuário em c

Esta é uma visão mais simples do meu Problema. Quero converter um valor flutuante no tipo definido v4si (desejo usar a Operação SIMD para otimização.) Por favor, ajude a converter o valor flutuante / duplo em um tipo definido. #include<stdio.h> ...

1 a resposta

As operações escalares do AVX são muito mais rápidas

Eu testo a seguinte função simples void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }com matrizes muito grandes para que ele seja vinculado à largura de banda da memória. O código de teste que eu uso está abaixo. Quando ...

4 a resposta

NÃO está faltando no SSE, AVX?

É minha imaginação ou é umPNOT instrução ausente do SSE e AVX? Ou seja, uma instrução que vira cada bit no vetor. Se sim, existe uma maneira melhor de emular isso do quePXOR com um vetor de todos os 1s? Muito chato, pois preciso configurar um ...

1 a resposta

como posso usar instruções SVML [duplicado]

Esta pergunta já tem uma resposta aqui: Erro C ++: '_mm_sin_ps' não foi declarado neste escopo [/questions/31978592/c-error-mm-sin-ps-was-not-declared-in-this-scope] 3 respostasOnde é intrínseco o '_mm256_pow_ps' de ...

2 a resposta

Como ativar a autovectorização sse3 no gcc

Eu tenho um loop simples com leva o produto de n números complexos. Ao executar esse loop milhões de vezes, quero que seja o mais rápido possível. Entendo que é possível fazer isso rapidamente usando intrínsecas SSE3 e gcc, mas estou interessado ...

2 a resposta

Convenção para exibição de registros vetoriais

Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...

2 a resposta

Por que esse código SSE é 6 vezes mais lento sem o VZEROUPPER no Skylake?

Eu tenho tentado descobrir um problema de desempenho em um aplicativo e finalmente o reduzi a um problema realmente estranho. O código a seguir é executado 6 vezes mais devagar em uma CPU Skylake (i5-6500) se oVZEROUPPER a instrução é comentada. ...

0 a resposta

Como executar com eficiência conversões duplas / int64 com SSE / AVX?

O SSE2 possui instruções para converter vetores entre flutuadores de precisão única e números inteiros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Mas não há equivalentes para números inteiros de precisão dupla e 64 bits. Em outras palavras, ...

1 a resposta

latency vs throughput em intel intrinsics

Acho que tenho um entendimento decente da diferença entre latência e taxa de transferência, em geral. No entanto, as implicações da latência na taxa de transferência de instruções não são claras para o Intel Intrinsics, principalmente ao usar ...