Resultados da pesquisa a pedido "sse"

1 a resposta

Escreva funções x86 asm de forma portável (win / linux / osx), sem uma dependência de compilação do yasm / nasm?

par2 [https://github.com/Parchive/par2cmdline]possui uma base de código C ++ pequena e bastante limpa, que eu acho que funciona bem no GNU / Linux, OS X e Windows (com MSVC ++). Eu gostaria de incorporar uma versão x86-64 asm da única função que ...

3 a resposta

Erro C ++: '_mm_sin_ps' não foi declarado neste escopo

Estou tentando comparar diferentes maneiras de aplicar uma função a uma matriz. porque ...

1 a resposta

Por que o GCC ou o Clang não otimizam recíproco para uma instrução ao usar o método rápido de matemática

Alguém sabe por que o GCC / Clang não funcionará otimistatest1 no exemplo de código abaixo para simplesmente usar apenas a instrução RCPPS ao usar a opção de matemática rápida? Existe outro sinalizador do compilador que geraria ...

2 a resposta

Como saber se o SSE2 está ativado no opencv

Eu tenho uma versão do OpenCV 2.4.10 Library que foi criada para o Intel X64 no Windows. Como posso saber se o CV_SSE2 está ativo? Eu não tenho o código. Eu só tenho as bibliotecas, DLLs e cabeçalhos. obrigado

3 a resposta

Como resolver o problema de alinhamento de 32 bytes nas operações de carregamento / armazenamento do AVX?

Estou tendo problemas de alinhamento ao usarymm registra, com alguns trechos de código que me parecem bons. Aqui está um exemplo de trabalho mínimo: #include <iostream> #include <immintrin.h> inline void ones(float *a) { __m256 out_aligned = ...

4 a resposta

Intrínsecas SSE2 - comparando números inteiros não assinados

Estou interessado em identificar valores excedentes ao adicionar números inteiros de 8 bits não assinados e saturar o resultado em 0xFF: __m128i m1 = _mm_loadu_si128(/* 16 8-bit unsigned integers */); __m128i m2 = _mm_loadu_si128(/* 16 8-bit ...

2 a resposta

Como escrever código c ++ que o compilador pode compilar com eficiência para SSE ou AVX?

Digamos que eu tenha uma função escrita em c ++ que execute multiplicações de vetores de matriz em muitos vetores. É necessário um ponteiro para a matriz de vetores a ser transformada. Estou correto ao supor que o compilador não pode otimizar ...

3 a resposta

Como executar a conversão de uint32 / float com SSE?

No SSE há uma função_mm_cvtepi32_ps(__m128i input) que recebe o vetor de entrada de números inteiros assinados com 32 bits (int32_t) e os converte emfloats. Agora, quero interpretar números inteiros de entrada como não assinados. Mas não há ...

1 a resposta

Carregando 8 caracteres da memória em uma variável __m256, como flutuadores de precisão única compactados

Estou otimizando um algoritmo para desfoque gaussiano em uma imagem e quero substituir o uso de um buffer flutuante [8] no código abaixo por uma variável intrínseca __m256. Que série de instruções é mais adequada para esta tarefa? // unsigned ...

2 a resposta

O CUDA pode usar extensões SIMD?

Pesquisei um pouco, mas agora não está claro para mim se algumas GPUs programadas com CUDA podem tirar vantagem ou usar instruções semelhantes às das extensões SSE SIMD; por exemplo, se podemos somar dois vetores de flutuadores em dupla ...