Resultados da pesquisa a pedido "sse"

1 a resposta

aneira eficiente de converter índices de dispersão em índices de colet

Estou tentando escrever uma compactação de fluxo (pegue uma matriz e livre-se de elementos vazios) com intrínsecas SIMD. Cada iteração do loop processa 8 elementos por vez (largura do SIMD om intrínsecas SSE, eu posso fazer isso de forma ...

2 a resposta

Flutuantes constantes com SIMD

Eu tenho tentado otimizar alguns códigos que tenho usando os intrínsecos sse da microsoft. Um dos maiores problemas ao otimizar meu código é o LHS que acontece sempre que eu quero usar uma constante. Parece haver algumas informações sobre ...

5 a resposta

Como mover imediatos de 128 bits para registros XMM

Já existeuma pergunt [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] nisso, mas foi fechado como "ambíguo", então estou abrindo um novo - encontrei a resposta, talvez ajude os outros també A questão é: como ...

2 a resposta

SSE vectorização da função matemática 'pow' gcc

Eu estava tentando vetorizar um loop que contenha o uso da função 'pow' na biblioteca de matemática. Estou ciente de que o compilador intel suporta o uso de 'pow' para obter instruções sse - mas não consigo executá-lo com o gcc (acho). Este é o ...

4 a resposta

aneira mais rápida de fazer a soma de vetores de flutuação horizontal em x86

Você tem um vetor de três (ou quatro) carros alegóricos. Qual é a maneira mais rápida de somar? O SSE (movaps, shuffle, add, movd) é sempre mais rápido que x87? As instruções de adição horizontal no SSE4.2 valem a pena? Qual é o custo de mudar ...

4 a resposta

onversão vetorizada rápida de RGB para BGRA

Em um acompanhamento de algumas perguntas anteriores sobre a conversão de RGB para RGBA e ARGB em BGR, eu gostaria de acelerar umRGB para BGRA conversão com SSE. Suponha uma máquina de 32 bits e gostaria de usar intrinsics. Estou ...

2 a resposta

Usando as instruções da CPU do AVX: Baixo desempenho sem “/ arch: AVX”

Meu código C ++ usa SSE e agora quero aprimorá-lo para dar suporte ao AVX quando estiver disponível. Por isso, detecto quando o AVX está disponível e chamo uma função que usa os comandos do AVX. Eu uso o Win7 SP1 + VS2010 SP1 e uma CPU com ...

5 a resposta

Otimizando a compactação de matriz

Digamos que eu tenho uma matrizk = [1 2 0 0 5 4 0] Eu posso calcular uma máscara da seguinte formam = k > 0 = [1 1 0 0 1 1 0] Usando apenas a máscara me as seguintes operações Shift esquerda / direita E / ou Adicionar / Subtrair / Multiplicar ...

2 a resposta

Uma variável __m128i é zero?

Como testar se um__m128i tem algum valor diferente de zero nos processadores SSE-2 e anteriore

3 a resposta

SSE multiplicação 16 x uint8_t

Quero multiplicar com SSE4 a__m128i objeto com 16 números inteiros de 8 bits não assinados, mas só consegui encontrar um intrínseco para multiplicar números inteiros de 16 bits. Não existe nada como_mm_mult_epi8?