Resultados da pesquisa a pedido "sse"
Qual é a maneira mais eficiente de carregar e extrair valores inteiros de 32 bits de um vetor SSE de 128 bits?
Estou tentando otimizar meu código usando intrínsecas SSE, mas estou com um problema em que não conheço uma boa maneira de extrair os valores inteiros de um vetor depois de executar as operações intrínsecas SSE para obter o que quero. Alguém ...
Tornar os armazenamentos de memória anteriores visíveis para as cargas de memória subsequentes
Quero armazenar dados em uma grande variedade com_mm256_stream_si256() chamado em um loop. Pelo que entendi, é necessária uma cerca de memória para tornar essas alterações visíveis para outros threads. A descrição de_mm_sfence() diz Execute uma ...
Erro: transmitir tipos de dados definidos pelo usuário em c
Esta é uma visão mais simples do meu Problema. Quero converter um valor flutuante no tipo definido v4si (desejo usar a Operação SIMD para otimização.) Por favor, ajude a converter o valor flutuante / duplo em um tipo definido. #include<stdio.h> ...
Usando registros ymm como um local de armazenamento "semelhante à memória"
Considere o seguinte loop em x86: ; on entry, rdi has the number of iterations .top: ; some magic happens here to calculate a result in rax mov [array + rdi * 8], rax ; store result in output array dec rdi jnz .topÉ simples: algo calcula um ...
Estrutura c ++ SSE SIMD [fechada]
Alguém conhece uma biblioteca intrínseca de código aberto C ++ x86 SIMD? A Intel fornece exatamente o que eu preciso em sua biblioteca de primitivas de desempenho integrada, mas não posso usá-lo por causa dos direitos autorais em todo o ...
SSE42 & STTNI - PcmpEstrM é duas vezes mais lento que PcmpIstrM, é verdade?
Estou experimentando as instruções SSE42 e STTNI e obtive um resultado estranho -PcmpEstrM(funciona com cadeias de comprimento explícitas) é executadoduas vezes mais lento que PcmpIstrM(cadeias de comprimento implícitas). No meui7 3610QMa ...
Técnicas SIMD comuns
Onde posso encontrar informações sobre truques comuns do SIMD? Eu tenho um conjunto de instruções e sei como escrever código SIMD não complicado, mas sei que agora o SIMD é muito mais poderoso. Ele pode conter código sem ramificação condicional ...
transmissões SIMD implícitas (SSE / AVX) com o GCC
Consegui converter a maior parte do meu código SIMD para as extensões de vetor do GCC. No entanto, não encontrei uma boa solução para fazer uma transmissão da seguinte maneira __m256 areg0 = _mm256_broadcast_ss(&a[i]);eu quero fazer __m256 ...
Carregando um xmm dos registros do GP
Digamos que você tenha valores emrax erdx você deseja carregar em umxmm registo. Uma maneira seria: movq xmm0, rax pinsrq xmm0, rdx, 1É bem lento! Existe uma maneira melhor?
Recebo uma penalidade de desempenho ao misturar instruções SIMD de número inteiro / flutuante SSE
Eu usei instruções x86 SIMD (SSE1234) na forma de intrínsecas bastante ultimamente. O que eu achei frustrante é que o SSE ISA tem várias instruções simples que estão disponíveis apenas para floats ou apenas para números inteiros, mas, em teoria, ...