Resultados da pesquisa a pedido "sse"
tipo de vetor estendido personalizado: por exemplo float4 b = v.xxyz;
OpenCL, GCC e Clang têm tipo de vetor convinenteextensões.Uma das características que eu mais gosto é a capacidade de fazer um swizzle assim:
A carga não alinhada do SSE é intrínseca mais lenta que a carga alinhada intrínseca nos processadores Intel x64_64?
Estou pensando em alterar algum código de alto desempenho que atualmente requer arrays alinhados de 16 bytes e usa
Como executar com eficiência conversões duplas / int64 com SSE / AVX?
O SSE2 possui instruções para converter vetores entre flutuadores de precisão única e números inteiros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Mas não há equivalentes para números inteiros de precisão dupla e 64 bits. Em outras palavras, ...
Por que esse código SSE é 6 vezes mais lento sem o VZEROUPPER no Skylake?
Eu tenho tentado descobrir um problema de desempenho em um aplicativo e finalmente o reduzi a um problema realmente estranho. O código a seguir é executado 6 vezes mais devagar em uma CPU Skylake (i5-6500) se oVZEROUPPER a instrução é comentada. ...
Usando SSE em c # é possível?
Eu estava lendo uma pergunta sobre otimização de código c # e uma solução era usar c ++ com SSE. É possível fazer o SSE diretamente de um programa c #?
As operações escalares do AVX são muito mais rápidas
Eu testo a seguinte função simples void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }com matrizes muito grandes para que ele seja vinculado à largura de banda da memória. O código de teste que eu uso está abaixo. Quando ...
Convenção para exibição de registros vetoriais
Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...
NÃO está faltando no SSE, AVX?
É minha imaginação ou é umPNOT instrução ausente do SSE e AVX? Ou seja, uma instrução que vira cada bit no vetor. Se sim, existe uma maneira melhor de emular isso do quePXOR com um vetor de todos os 1s? Muito chato, pois preciso configurar um ...