Resultados da pesquisa a pedido "sse"
Por que minha multiplicação direta de quaternário é mais rápida que o SSE?
Eu tenho passado por algumas implementações diferentes de multiplicação de quaternion, mas fiquei bastante surpreso ao ver que a implementação de referência é, até agora, a minha mais rápida. Esta é a implementação em questão: inline static quat ...
A multiplicação mais rápida de vetores de quaternário não funciona
Preciso de uma rotina de multiplicação de vetores de quaternário mais rápida para minha biblioteca de matemática. Agora eu estou usando o canônicov' = qv(q^-1), que produz o mesmo resultado da multiplicação do vetor por uma matriz feita a partir ...
Inicializando um tipo __m128 a partir de um int não assinado de 64 bits
o_mm_set_epi64 [http://msdn.microsoft.com/en-us/library/ecz16x1z%28v=vs.90%29.aspx]e instruções semelhantes _epi64 parecem usar e dependem de__m64 tipos. Eu quero inicializar uma variável do tipo__m128 de modo que os 64 bits superiores sejam 0 e ...
Desabilitar funções AVX2 em processadores que não sejam da Haswell
Eu escrevi algum código AVX2 para ser executado em um processador Haswell i7. A mesma base de código também é usada em processadores não-Haswell, onde o mesmo código deve ser substituído por seus equivalentes SSE. Eu queria saber se existe uma ...
Como essa função calcula o valor absoluto de um float por meio de uma operação NOT e AND?
Estou tentando entender como o seguinte trecho de código funciona. Este programa usa instruções vetoriais SIMD (Intel SSE) para calcular o valor absoluto de 4 flutuadores (portanto, basicamente, uma função "fabs ()" vetorizada). Aqui está o ...
SSE, principal problema de desempenho linha vs coluna principal
Por questões pessoais e divertidas, estou codificando uma geom lib usando o SSE (4.1). Passei as últimas 12 horas tentando entender um problema de desempenho ao lidar com a matriz armazenada linha maior vs coluna principal. Eu sei que as ...
Não é possível obter mais de 50% no máximo. desempenho teórico na matriz multiplicar
Problema Estou aprendendo sobre HPC e otimização de código. Tento replicar os resultados no papel de multiplicação de matriz seminal de Goto ...
Maneira correta de habilitar o SSE4 em uma função / por bloco de código?
Para um dos meus programas OS X, tenho alguns casos otimizados que usam instruções SSE4.1. Em máquinas somente SSE3, a ramificação não otimizada é executada: // SupportsSSE4_1 returns true on CPUs that support SSE4.1, false otherwise ...
pthreads v. ordenação de memória fraca SSE
As funções glibc pthread do Linux no x86_64 agem como cercas para acessos de memória com ordem fraca? (pthread_mutex_lock / unlock são as funções exatas em que estou interessado). O SSE2 fornece algumas instruções com ordenação de memória fraca ...
Como implementar "_mm_storeu_epi64" sem problemas de alias?
(Nota: embora esta pergunta seja sobre "armazenamento", o caso "carregar" tem os mesmos problemas e é perfeitamente simétrico.) Os intrínsecos SSE fornecem uma_mm_storeu_pd [http://msdn.microsoft.com/en-us/library/7ek6y8w1(v=vs.90).aspx]função ...