Resultados da pesquisa a pedido "simd"

3 a resposta

s versões SIMD mais antigas estão disponíveis ao usar as mais nova

Quando posso usar o SSE3 ou o AVX, existem versões mais antigas do SSE como SSE2 ou MMX disponíveis - ou ainda preciso checá-los separadamente?

1 a resposta

como posso usar instruções SVML [duplicado]

Esta pergunta já tem uma resposta aqui: Erro C ++: '_mm_sin_ps' não foi declarado neste escopo [/questions/31978592/c-error-mm-sin-ps-was-not-declared-in-this-scope] 3 respostasOnde é intrínseco o '_mm256_pow_ps' de ...

2 a resposta

Por que o gcc não resolve _mm256_loadu_pd como um único vmovupd?

Estou escrevendo alguns AVX e eu preciso carregar da memória potencialmente desalinhada. Atualmente, estou carregando 4 doubles, portanto, eu usaria instruções intrínsecas _mm256, _loadu_pd [https://software.intel.com/en-us/node/524102]; o ...

1 a resposta

Xcode simd - problema com o exemplo de conversão e matriz de rotação

Não é apenas contra-intuitivo coluna-contra-fila-principal, a documentação da Apple sobre "Trabalhar com matrizes" agrava ainda mais a confusão com seus exemplos de "construção" de uma "Matriz de translação" e de uma "Matriz de rotação" em ...

4 a resposta

Intel SSE: Por que `_mm_extract_ps` retorna` int` em vez de `float`?

Porque_mm_extract_ps retorna umint em vez de umfloat? Qual é a maneira correta de ler um únicofloat de um registro XMM em C? Ou melhor, uma maneira diferente de perguntar é: Qual é o oposto do_mm_set_ps instrução?

1 a resposta

aneira eficiente de converter índices de dispersão em índices de colet

Estou tentando escrever uma compactação de fluxo (pegue uma matriz e livre-se de elementos vazios) com intrínsecas SIMD. Cada iteração do loop processa 8 elementos por vez (largura do SIMD om intrínsecas SSE, eu posso fazer isso de forma ...

1 a resposta

xemplo de conflito realístico em CUDA / OpenCL

ara um tutorial que estou escrevendo, estou procurando um exemplo "realista" e simples de um impasse causado pela ignorância do SIMT / SIM Eu criei esse trecho, que parece ser um bom exemplo. Qualquer entrada seria apreciada … int x = threadID ...

2 a resposta

Flutuantes constantes com SIMD

Eu tenho tentado otimizar alguns códigos que tenho usando os intrínsecos sse da microsoft. Um dos maiores problemas ao otimizar meu código é o LHS que acontece sempre que eu quero usar uma constante. Parece haver algumas informações sobre ...

5 a resposta

Como mover imediatos de 128 bits para registros XMM

Já existeuma pergunt [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] nisso, mas foi fechado como "ambíguo", então estou abrindo um novo - encontrei a resposta, talvez ajude os outros també A questão é: como ...

4 a resposta

onversão vetorizada rápida de RGB para BGRA

Em um acompanhamento de algumas perguntas anteriores sobre a conversão de RGB para RGBA e ARGB em BGR, eu gostaria de acelerar umRGB para BGRA conversão com SSE. Suponha uma máquina de 32 bits e gostaria de usar intrinsics. Estou ...