Resultados da pesquisa a pedido "sse"

Estou tentando escrever uma compactação de fluxo (pegue uma matriz e livre-se de elementos vazios) com intrínsecas SIMD. Cada iteração do loop processa 8 elementos por vez (largura do SIMD om intrínsecas SSE, eu posso fazer isso de forma ...

c++optimization simd

2 a resposta

Flutuantes constantes com SIMD

Eu tenho tentado otimizar alguns códigos que tenho usando os intrínsecos sse da microsoft. Um dos maiores problemas ao otimizar meu código é o LHS que acontece sempre que eu quero usar uma constante. Parece haver algumas informações sobre ...

x86 simd assembly

5 a resposta

Como mover imediatos de 128 bits para registros XMM

Já existeuma pergunt [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] nisso, mas foi fechado como "ambíguo", então estou abrindo um novo - encontrei a resposta, talvez ajude os outros també A questão é: como ...

optimization loops vectorization c

2 a resposta

SSE vectorização da função matemática 'pow' gcc

Eu estava tentando vetorizar um loop que contenha o uso da função 'pow' na biblioteca de matemática. Estou ciente de que o compilador intel suporta o uso de 'pow' para obter instruções sse - mas não consigo executá-lo com o gcc (acho). Este é o ...

floating-point x86 optimization assembly

4 a resposta

aneira mais rápida de fazer a soma de vetores de flutuação horizontal em x86

Você tem um vetor de três (ou quatro) carros alegóricos. Qual é a maneira mais rápida de somar? O SSE (movaps, shuffle, add, movd) é sempre mais rápido que x87? As instruções de adição horizontal no SSE4.2 valem a pena? Qual é o custo de mudar ...

c opengl vectorization simd

4 a resposta

onversão vetorizada rápida de RGB para BGRA

Em um acompanhamento de algumas perguntas anteriores sobre a conversão de RGB para RGBA e ARGB em BGR, eu gostaria de acelerar umRGB para BGRA conversão com SSE. Suponha uma máquina de 32 bits e gostaria de usar intrinsics. Estou ...

c++performance visual-studio-2010 avx

2 a resposta

Usando as instruções da CPU do AVX: Baixo desempenho sem “/ arch: AVX”

Meu código C ++ usa SSE e agora quero aprimorá-lo para dar suporte ao AVX quando estiver disponível. Por isso, detecto quando o AVX está disponível e chamo uma função que usa os comandos do AVX. Eu uso o Win7 SP1 + VS2010 SP1 e uma CPU com ...

algorithm matlab simd

5 a resposta

Otimizando a compactação de matriz

Digamos que eu tenho uma matrizk = [1 2 0 0 5 4 0] Eu posso calcular uma máscara da seguinte formam = k > 0 = [1 1 0 0 1 1 0] Usando apenas a máscara me as seguintes operações Shift esquerda / direita E / ou Adicionar / Subtrair / Multiplicar ...

c++c intel simd

2 a resposta

Uma variável __m128i é zero?

Como testar se um__m128i tem algum valor diferente de zero nos processadores SSE-2 e anteriore

x86 simd sse4

3 a resposta

SSE multiplicação 16 x uint8_t

Quero multiplicar com SSE4 a__m128i objeto com 16 números inteiros de 8 bits não assinados, mas só consegui encontrar um intrínseco para multiplicar números inteiros de 16 bits. Não existe nada como_mm_mult_epi8?

Página 16 do 17

13 14 151617

Resultados da pesquisa a pedido "sse"

aneira eficiente de converter índices de dispersão em índices de colet

Flutuantes constantes com SIMD

Como mover imediatos de 128 bits para registros XMM

Tags populares

SSE vectorização da função matemática 'pow' gcc

aneira mais rápida de fazer a soma de vetores de flutuação horizontal em x86

onversão vetorizada rápida de RGB para BGRA

Usando as instruções da CPU do AVX: Baixo desempenho sem “/ arch: AVX”

Otimizando a compactação de matriz

Uma variável __m128i é zero?

SSE multiplicação 16 x uint8_t

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "sse"

Tags populares