Resultados da pesquisa a pedido "sse"
aneira eficiente de converter índices de dispersão em índices de colet
Estou tentando escrever uma compactação de fluxo (pegue uma matriz e livre-se de elementos vazios) com intrínsecas SIMD. Cada iteração do loop processa 8 elementos por vez (largura do SIMD om intrínsecas SSE, eu posso fazer isso de forma ...
Flutuantes constantes com SIMD
Eu tenho tentado otimizar alguns códigos que tenho usando os intrínsecos sse da microsoft. Um dos maiores problemas ao otimizar meu código é o LHS que acontece sempre que eu quero usar uma constante. Parece haver algumas informações sobre ...
Como mover imediatos de 128 bits para registros XMM
Já existeuma pergunt [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] nisso, mas foi fechado como "ambíguo", então estou abrindo um novo - encontrei a resposta, talvez ajude os outros també A questão é: como ...
SSE vectorização da função matemática 'pow' gcc
Eu estava tentando vetorizar um loop que contenha o uso da função 'pow' na biblioteca de matemática. Estou ciente de que o compilador intel suporta o uso de 'pow' para obter instruções sse - mas não consigo executá-lo com o gcc (acho). Este é o ...
aneira mais rápida de fazer a soma de vetores de flutuação horizontal em x86
Você tem um vetor de três (ou quatro) carros alegóricos. Qual é a maneira mais rápida de somar? O SSE (movaps, shuffle, add, movd) é sempre mais rápido que x87? As instruções de adição horizontal no SSE4.2 valem a pena? Qual é o custo de mudar ...
onversão vetorizada rápida de RGB para BGRA
Em um acompanhamento de algumas perguntas anteriores sobre a conversão de RGB para RGBA e ARGB em BGR, eu gostaria de acelerar umRGB para BGRA conversão com SSE. Suponha uma máquina de 32 bits e gostaria de usar intrinsics. Estou ...
Usando as instruções da CPU do AVX: Baixo desempenho sem “/ arch: AVX”
Meu código C ++ usa SSE e agora quero aprimorá-lo para dar suporte ao AVX quando estiver disponível. Por isso, detecto quando o AVX está disponível e chamo uma função que usa os comandos do AVX. Eu uso o Win7 SP1 + VS2010 SP1 e uma CPU com ...
Otimizando a compactação de matriz
Digamos que eu tenho uma matrizk = [1 2 0 0 5 4 0] Eu posso calcular uma máscara da seguinte formam = k > 0 = [1 1 0 0 1 1 0] Usando apenas a máscara me as seguintes operações Shift esquerda / direita E / ou Adicionar / Subtrair / Multiplicar ...
Uma variável __m128i é zero?
Como testar se um__m128i tem algum valor diferente de zero nos processadores SSE-2 e anteriore
SSE multiplicação 16 x uint8_t
Quero multiplicar com SSE4 a__m128i objeto com 16 números inteiros de 8 bits não assinados, mas só consegui encontrar um intrínseco para multiplicar números inteiros de 16 bits. Não existe nada como_mm_mult_epi8?