Resultados da pesquisa a pedido "simd"

Atualmente, estou pesquisando se seria possível acelerar a travessia de uma árvore Emma Boas (ou qualquer árvore). Dada uma única consulta de pesquisa como e...

cortex-a8 arm neon

4 a resposta

ARM Cortex-A8: Qual é a diferença entre VFP e NEON

No processador ARM Cortex-A8, eu entendo o que é NEON, é um co-processador SIMD. Mas a unidade VFP (Vector Floating Point), que também é um co-processador, funciona como um processador SIMD? Em caso afirmativo, qual é o melhor para usar? Eu li ...

compiler-options compiler-optimization x86 tensorflow

11 a resposta

Como compilar o Tensorflow com as instruções SSE4.2 e AVX?

Esta é a mensagem recebida da execução de um script para verificar se o Tensorflow está funcionando: I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.so.8.0 locally I ...

assembly performance c++

3 a resposta

Por que essa multiplicação SIMD não é mais rápida que a multiplicação não SIMD?

Vamos supor que temos uma função que multiplica duas matrizes de 1000000 duplos cada. Em C / C ++, a função se parece com isso: void mul_c(double* a, double* b) { for (int i = 0; i != 1000000; ++i) { a[i] = a[i] * b[i]; } }O compilador produz o ...

avx x86 sse

2 a resposta

Convenção para exibição de registros vetoriais

Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...

fma floating-point x86 avx2

3 a resposta

Posso usar as unidades AVX FMA para fazer multiplicações inteiras de 52 bits com precisão exata?

O AXV2 não possui multiplicações de número inteiro com fontes maiores que 32 bits. Oferece32 x 32 -> 32 [http://www.felixcloutier.com/x86/PMULLD.html] multiplica, bem como32 x 32 -> 64 [http://www.felixcloutier.com/x86/PMULDQ.html] $432 x 32 -> ...

avx x86 sse

4 a resposta

NÃO está faltando no SSE, AVX?

É minha imaginação ou é umPNOT instrução ausente do SSE e AVX? Ou seja, uma instrução que vira cada bit no vetor. Se sim, existe uma maneira melhor de emular isso do quePXOR com um vetor de todos os 1s? Muito chato, pois preciso configurar um ...

vectorization intel c++parallel-processing

0 a resposta

Laço restante ineficaz no meu código

Eu tenho esta função: bool interpolate(const Mat &im, float ofsx, float ofsy, float a11, float a12, float a21, float a22, Mat &res) { bool ret = false; // input size (-1 for the safe bilinear interpolation) const int width = im.cols-1; const int ...

assembly c++g++

5 a resposta

Como verificar se o código compilado usa instruções sse e avx?

Eu escrevi um código para fazer um monte de matemática e ele precisa ser rápido, por isso preciso usar as instruções SSE e AVX. Estou compilando com g ++ e estou usando as bandeiras-O3 e-march=native, acho que está usando instruções SSE e AVX, ...

sse c optimization sse2

4 a resposta

O código SIMD é mais lento que o código escalar

elma eelmc são ambosunsigned long matrizes. Também sãores1 eres2. unsigned long simdstore[2]; __m128i *p, simda, simdb, simdc; p = (__m128i *) simdstore; for (i = 0; i < _polylen; i++) { u1 = (elma[i] >> l) & 15; u2 = (elmc[i] >> l) & 15; for (k ...

Página 4 do 12

2 345 6

Resultados da pesquisa a pedido "simd"

Usando SIMD / AVX / SSE para travessia de árvore

ARM Cortex-A8: Qual é a diferença entre VFP e NEON

Como compilar o Tensorflow com as instruções SSE4.2 e AVX?

Tags populares

Por que essa multiplicação SIMD não é mais rápida que a multiplicação não SIMD?

Convenção para exibição de registros vetoriais

Posso usar as unidades AVX FMA para fazer multiplicações inteiras de 52 bits com precisão exata?

NÃO está faltando no SSE, AVX?

Laço restante ineficaz no meu código

Como verificar se o código compilado usa instruções sse e avx?

O código SIMD é mais lento que o código escalar

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "simd"

Tags populares