Resultados da pesquisa a pedido "sse"

Eu tenho algumas perguntas relacionadas à movimentação de valores XMM para registros de uso geral. Todas as questões encontradas no SO se concentram no oposto, a saber, a transferência de valores nos registros gp para o XMM. Como mover um valor ...

gcc c simd x86

2 a resposta

Erro: transmitir tipos de dados definidos pelo usuário em c

Esta é uma visão mais simples do meu Problema. Quero converter um valor flutuante no tipo definido v4si (desejo usar a Operação SIMD para otimização.) Por favor, ajude a converter o valor flutuante / duplo em um tipo definido. #include<stdio.h> ...

c memory x86 avx

1 a resposta

As operações escalares do AVX são muito mais rápidas

Eu testo a seguinte função simples void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }com matrizes muito grandes para que ele seja vinculado à largura de banda da memória. O código de teste que eu uso está abaixo. Quando ...

avx x86 simd

4 a resposta

NÃO está faltando no SSE, AVX?

É minha imaginação ou é umPNOT instrução ausente do SSE e AVX? Ou seja, uma instrução que vira cada bit no vetor. Se sim, existe uma maneira melhor de emular isso do quePXOR com um vetor de todos os 1s? Muito chato, pois preciso configurar um ...

c++x86 simd

1 a resposta

como posso usar instruções SVML [duplicado]

Esta pergunta já tem uma resposta aqui: Erro C ++: '_mm_sin_ps' não foi declarado neste escopo [/questions/31978592/c-error-mm-sin-ps-was-not-declared-in-this-scope] 3 respostasOnde é intrínseco o '_mm256_pow_ps' de ...

auto-vectorization gcc c

2 a resposta

Como ativar a autovectorização sse3 no gcc

Eu tenho um loop simples com leva o produto de n números complexos. Ao executar esse loop milhões de vezes, quero que seja o mais rápido possível. Entendo que é possível fazer isso rapidamente usando intrínsecas SSE3 e gcc, mas estou interessado ...

avx simd x86

2 a resposta

Convenção para exibição de registros vetoriais

Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...

performance avx intel x86

2 a resposta

Por que esse código SSE é 6 vezes mais lento sem o VZEROUPPER no Skylake?

Eu tenho tentado descobrir um problema de desempenho em um aplicativo e finalmente o reduzi a um problema realmente estranho. O código a seguir é executado 6 vezes mais devagar em uma CPU Skylake (i5-6500) se oVZEROUPPER a instrução é comentada. ...

c++performance floating-point avx

0 a resposta

Como executar com eficiência conversões duplas / int64 com SSE / AVX?

O SSE2 possui instruções para converter vetores entre flutuadores de precisão única e números inteiros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Mas não há equivalentes para números inteiros de precisão dupla e 64 bits. Em outras palavras, ...

x86 intrinsics micro-optimization performance

1 a resposta

latency vs throughput em intel intrinsics

Acho que tenho um entendimento decente da diferença entre latência e taxa de transferência, em geral. No entanto, as implicações da latência na taxa de transferência de instruções não são claras para o Intel Intrinsics, principalmente ao usar ...

Página 2 do 17

123 4 5

Resultados da pesquisa a pedido "sse"

Valores de 128 bits - dos registros XMM ao uso geral

Erro: transmitir tipos de dados definidos pelo usuário em c

As operações escalares do AVX são muito mais rápidas

Tags populares

NÃO está faltando no SSE, AVX?

como posso usar instruções SVML [duplicado]

Como ativar a autovectorização sse3 no gcc

Convenção para exibição de registros vetoriais

Por que esse código SSE é 6 vezes mais lento sem o VZEROUPPER no Skylake?

Como executar com eficiência conversões duplas / int64 com SSE / AVX?

latency vs throughput em intel intrinsics

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "sse"

Tags populares