Resultados da pesquisa a pedido "simd"

3 a resposta

Erro C ++: '_mm_sin_ps' não foi declarado neste escopo

Estou tentando comparar diferentes maneiras de aplicar uma função a uma matriz. porque ...

1 a resposta

Por que o GCC ou o Clang não otimizam recíproco para uma instrução ao usar o método rápido de matemática

Alguém sabe por que o GCC / Clang não funcionará otimistatest1 no exemplo de código abaixo para simplesmente usar apenas a instrução RCPPS ao usar a opção de matemática rápida? Existe outro sinalizador do compilador que geraria ...

3 a resposta

Como usar a multiplicação e o acúmulo de intrínsecas no ARM Cortex-a8?

como usar os intrínsecos de acumulação múltipla fornecidos pelo GCC? float32x4_t vmlaq_f32 (float32x4_t , float32x4_t , float32x4_t);Alguém pode explicar quais são os três parâmetros que tenho que passar para esta função. Quero dizer os ...

4 a resposta

Intrínsecas SSE2 - comparando números inteiros não assinados

Estou interessado em identificar valores excedentes ao adicionar números inteiros de 8 bits não assinados e saturar o resultado em 0xFF: __m128i m1 = _mm_loadu_si128(/* 16 8-bit unsigned integers */); __m128i m2 = _mm_loadu_si128(/* 16 8-bit ...

1 a resposta

Instrução SSE para verificar se a matriz de bytes é zerada em C #

Suponha que eu tenho umbyte[] e deseja verificar se todos os bytes são zeros. O loop for é uma maneira óbvia de fazê-lo, e o LINQAll() é uma maneira elegante de fazer isso, mas o desempenho mais alto é crítico. Como posso usarMono.Simd ...

2 a resposta

Como escrever código c ++ que o compilador pode compilar com eficiência para SSE ou AVX?

Digamos que eu tenha uma função escrita em c ++ que execute multiplicações de vetores de matriz em muitos vetores. É necessário um ponteiro para a matriz de vetores a ser transformada. Estou correto ao supor que o compilador não pode otimizar ...

3 a resposta

Como executar a conversão de uint32 / float com SSE?

No SSE há uma função_mm_cvtepi32_ps(__m128i input) que recebe o vetor de entrada de números inteiros assinados com 32 bits (int32_t) e os converte emfloats. Agora, quero interpretar números inteiros de entrada como não assinados. Mas não há ...

1 a resposta

Carregando 8 caracteres da memória em uma variável __m256, como flutuadores de precisão única compactados

Estou otimizando um algoritmo para desfoque gaussiano em uma imagem e quero substituir o uso de um buffer flutuante [8] no código abaixo por uma variável intrínseca __m256. Que série de instruções é mais adequada para esta tarefa? // unsigned ...

2 a resposta

O CUDA pode usar extensões SIMD?

Pesquisei um pouco, mas agora não está claro para mim se algumas GPUs programadas com CUDA podem tirar vantagem ou usar instruções semelhantes às das extensões SSE SIMD; por exemplo, se podemos somar dois vetores de flutuadores em dupla ...

1 a resposta

Quais são essas instruções extras de desmontagem ao usar as intrínsecas do SIMD?

Estou testando que tipo de aceleração posso obter usando as instruções SIMD com o RyuJIT e estou vendo algumas instruções de desmontagem que não espero. Estou baseando o código emesta postagem no ...