Resultados da pesquisa a pedido "sse"
Um carregamento não alocado de SSE inteiro mais rápido que raramente é usado [duplicado]
Esta pergunta já tem uma resposta aqui: qual é a diferença entre _mm256_lddqu_si256 e _mm256_loadu_si256 [/questions/47425851/whats-the-difference-between-mm256-lddqu-si256-and-mm256-loadu-si256] 1 respostaEu gostaria de saber mais sobre ...
Alinhamento e comportamento estranho do SSE
Eu tento trabalhar com o SSE e me deparei com um comportamento estranho. Eu escrevo um código simples para comparar duas strings com o SSE Intrinsics, execute-o e funcione. Mas depois eu entendo que no meu código um dos ponteiros ainda não está ...
Guia intrínseco da Intel - latência e taxa de transferência
Alguém pode explicar os valores de Latência e Taxa de transferência dados noGuia intrínseco da Intel [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#]? Entendi corretamente que a latência é a quantidade de unidades de tempo que ...
As operações escalares do AVX são muito mais rápidas
Eu testo a seguinte função simples void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }com matrizes muito grandes para que ele seja vinculado à largura de banda da memória. O código de teste que eu uso está abaixo. Quando ...
diferença entre o registro MMX e XMM?
Atualmente, estou aprendendo programação de montagem no processador Intel x86. Alguém poderia me explicar, qual é a diferença entre o registro MMX e XMM? Estou muito confuso em termos de quais funções eles servem e a diferença e ...
Multiplicação de matriz grande (0,1) usando AND bit a bit e popcount em vez de reais int ou float multiplica-se?
Para multiplicar matrizes binárias grandes (10Kx20K), o que costumo fazer é converter as matrizes em unidades flutuantes e executar a multiplicação da matriz flutuante, pois a multiplicação da matriz inteira é bem lenta (dê uma olhada ...
Quão mais rápidas são as instruções de sequência do SSE4.2 que o SSE2 para o memcmp?
Aqui está o assembler do meu código Você pode incorporá-lo em c ++ e verificar o SSE4? A velocidade Eu gostaria muito de ver como entrou no desenvolvimento do SSE4. Ou não está preocupado com ele? Vamos verificar (não tenho suporte acima do ...
Como usar corretamente as instruções de pré-busca?
Estou tentando vetorizar um loop, computando o produto escalar de um grande vetor de flutuador. Estou computando em paralelo, utilizando o fato de que a CPU possui uma grande quantidade de registros XMM, assim: __m128* A, B; __m128 dot0, dot1, ...
Recebo uma penalidade de desempenho ao misturar instruções SIMD de número inteiro / flutuante SSE
Eu usei instruções x86 SIMD (SSE1234) na forma de intrínsecas bastante ultimamente. O que eu achei frustrante é que o SSE ISA tem várias instruções simples que estão disponíveis apenas para floats ou apenas para números inteiros, mas, em teoria, ...
Carregando um xmm dos registros do GP
Digamos que você tenha valores emrax erdx você deseja carregar em umxmm registo. Uma maneira seria: movq xmm0, rax pinsrq xmm0, rdx, 1É bem lento! Existe uma maneira melhor?