Resultados da pesquisa a pedido "sse"

1 a resposta

Implementação do filtro C ++ SSE

1 a resposta

Ignorar atrasos ao alternar domínios da unidade de execução

0 a resposta

tipo de vetor estendido personalizado: por exemplo float4 b = v.xxyz;

OpenCL, GCC e Clang têm tipo de vetor convinenteextensões.Uma das características que eu mais gosto é a capacidade de fazer um swizzle assim:

4 a resposta

A carga não alinhada do SSE é intrínseca mais lenta que a carga alinhada intrínseca nos processadores Intel x64_64?

Estou pensando em alterar algum código de alto desempenho que atualmente requer arrays alinhados de 16 bytes e usa

0 a resposta

Como executar com eficiência conversões duplas / int64 com SSE / AVX?

O SSE2 possui instruções para converter vetores entre flutuadores de precisão única e números inteiros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Mas não há equivalentes para números inteiros de precisão dupla e 64 bits. Em outras palavras, ...

2 a resposta

Por que esse código SSE é 6 vezes mais lento sem o VZEROUPPER no Skylake?

Eu tenho tentado descobrir um problema de desempenho em um aplicativo e finalmente o reduzi a um problema realmente estranho. O código a seguir é executado 6 vezes mais devagar em uma CPU Skylake (i5-6500) se oVZEROUPPER a instrução é comentada. ...

9 a resposta

Usando SSE em c # é possível?

Eu estava lendo uma pergunta sobre otimização de código c # e uma solução era usar c ++ com SSE. É possível fazer o SSE diretamente de um programa c #?

1 a resposta

As operações escalares do AVX são muito mais rápidas

Eu testo a seguinte função simples void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }com matrizes muito grandes para que ele seja vinculado à largura de banda da memória. O código de teste que eu uso está abaixo. Quando ...

2 a resposta

Convenção para exibição de registros vetoriais

Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...

4 a resposta

NÃO está faltando no SSE, AVX?

É minha imaginação ou é umPNOT instrução ausente do SSE e AVX? Ou seja, uma instrução que vira cada bit no vetor. Se sim, existe uma maneira melhor de emular isso do quePXOR com um vetor de todos os 1s? Muito chato, pois preciso configurar um ...