Resultados da pesquisa a pedido "sse"

2 a resposta

Por que minha multiplicação direta de quaternário é mais rápida que o SSE?

Eu tenho passado por algumas implementações diferentes de multiplicação de quaternion, mas fiquei bastante surpreso ao ver que a implementação de referência é, até agora, a minha mais rápida. Esta é a implementação em questão: inline static quat ...

1 a resposta

A multiplicação mais rápida de vetores de quaternário não funciona

Preciso de uma rotina de multiplicação de vetores de quaternário mais rápida para minha biblioteca de matemática. Agora eu estou usando o canônicov' = qv(q^-1), que produz o mesmo resultado da multiplicação do vetor por uma matriz feita a partir ...

3 a resposta

Inicializando um tipo __m128 a partir de um int não assinado de 64 bits

o_mm_set_epi64 [http://msdn.microsoft.com/en-us/library/ecz16x1z%28v=vs.90%29.aspx]e instruções semelhantes _epi64 parecem usar e dependem de__m64 tipos. Eu quero inicializar uma variável do tipo__m128 de modo que os 64 bits superiores sejam 0 e ...

2 a resposta

Desabilitar funções AVX2 em processadores que não sejam da Haswell

Eu escrevi algum código AVX2 para ser executado em um processador Haswell i7. A mesma base de código também é usada em processadores não-Haswell, onde o mesmo código deve ser substituído por seus equivalentes SSE. Eu queria saber se existe uma ...

1 a resposta

Como essa função calcula o valor absoluto de um float por meio de uma operação NOT e AND?

Estou tentando entender como o seguinte trecho de código funciona. Este programa usa instruções vetoriais SIMD (Intel SSE) para calcular o valor absoluto de 4 flutuadores (portanto, basicamente, uma função "fabs ()" vetorizada). Aqui está o ...

2 a resposta

SSE, principal problema de desempenho linha vs coluna principal

Por questões pessoais e divertidas, estou codificando uma geom lib usando o SSE (4.1). Passei as últimas 12 horas tentando entender um problema de desempenho ao lidar com a matriz armazenada linha maior vs coluna principal. Eu sei que as ...

1 a resposta

Não é possível obter mais de 50% no máximo. desempenho teórico na matriz multiplicar

Problema Estou aprendendo sobre HPC e otimização de código. Tento replicar os resultados no papel de multiplicação de matriz seminal de Goto ...

3 a resposta

Maneira correta de habilitar o SSE4 em uma função / por bloco de código?

Para um dos meus programas OS X, tenho alguns casos otimizados que usam instruções SSE4.1. Em máquinas somente SSE3, a ramificação não otimizada é executada: // SupportsSSE4_1 returns true on CPUs that support SSE4.1, false otherwise ...

1 a resposta

pthreads v. ordenação de memória fraca SSE

As funções glibc pthread do Linux no x86_64 agem como cercas para acessos de memória com ordem fraca? (pthread_mutex_lock / unlock são as funções exatas em que estou interessado). O SSE2 fornece algumas instruções com ordenação de memória fraca ...

1 a resposta

Como implementar "_mm_storeu_epi64" sem problemas de alias?

(Nota: embora esta pergunta seja sobre "armazenamento", o caso "carregar" tem os mesmos problemas e é perfeitamente simétrico.) Os intrínsecos SSE fornecem uma_mm_storeu_pd [http://msdn.microsoft.com/en-us/library/7ek6y8w1(v=vs.90).aspx]função ...