Resultados da pesquisa a pedido "sse"

1 a resposta

Um carregamento não alocado de SSE inteiro mais rápido que raramente é usado [duplicado]

Esta pergunta já tem uma resposta aqui: qual é a diferença entre _mm256_lddqu_si256 e _mm256_loadu_si256 [/questions/47425851/whats-the-difference-between-mm256-lddqu-si256-and-mm256-loadu-si256] 1 respostaEu gostaria de saber mais sobre ...

1 a resposta

Alinhamento e comportamento estranho do SSE

Eu tento trabalhar com o SSE e me deparei com um comportamento estranho. Eu escrevo um código simples para comparar duas strings com o SSE Intrinsics, execute-o e funcione. Mas depois eu entendo que no meu código um dos ponteiros ainda não está ...

1 a resposta

Guia intrínseco da Intel - latência e taxa de transferência

Alguém pode explicar os valores de Latência e Taxa de transferência dados noGuia intrínseco da Intel [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#]? Entendi corretamente que a latência é a quantidade de unidades de tempo que ...

1 a resposta

As operações escalares do AVX são muito mais rápidas

Eu testo a seguinte função simples void mul(double *a, double *b) { for (int i = 0; i<N; i++) a[i] *= b[i]; }com matrizes muito grandes para que ele seja vinculado à largura de banda da memória. O código de teste que eu uso está abaixo. Quando ...

1 a resposta

diferença entre o registro MMX e XMM?

Atualmente, estou aprendendo programação de montagem no processador Intel x86. Alguém poderia me explicar, qual é a diferença entre o registro MMX e XMM? Estou muito confuso em termos de quais funções eles servem e a diferença e ...

1 a resposta

Multiplicação de matriz grande (0,1) usando AND bit a bit e popcount em vez de reais int ou float multiplica-se?

Para multiplicar matrizes binárias grandes (10Kx20K), o que costumo fazer é converter as matrizes em unidades flutuantes e executar a multiplicação da matriz flutuante, pois a multiplicação da matriz inteira é bem lenta (dê uma olhada ...

1 a resposta

Quão mais rápidas são as instruções de sequência do SSE4.2 que o SSE2 para o memcmp?

Aqui está o assembler do meu código Você pode incorporá-lo em c ++ e verificar o SSE4? A velocidade Eu gostaria muito de ver como entrou no desenvolvimento do SSE4. Ou não está preocupado com ele? Vamos verificar (não tenho suporte acima do ...

1 a resposta

Como usar corretamente as instruções de pré-busca?

Estou tentando vetorizar um loop, computando o produto escalar de um grande vetor de flutuador. Estou computando em paralelo, utilizando o fato de que a CPU possui uma grande quantidade de registros XMM, assim: __m128* A, B; __m128 dot0, dot1, ...

1 a resposta

Recebo uma penalidade de desempenho ao misturar instruções SIMD de número inteiro / flutuante SSE

Eu usei instruções x86 SIMD (SSE1234) na forma de intrínsecas bastante ultimamente. O que eu achei frustrante é que o SSE ISA tem várias instruções simples que estão disponíveis apenas para floats ou apenas para números inteiros, mas, em teoria, ...

1 a resposta

Carregando um xmm dos registros do GP

Digamos que você tenha valores emrax erdx você deseja carregar em umxmm registo. Uma maneira seria: movq xmm0, rax pinsrq xmm0, rdx, 1É bem lento! Existe uma maneira melhor?