Resultados da pesquisa a pedido "simd"

2 a resposta

Usando SIMD / AVX / SSE para travessia de árvore

Atualmente, estou pesquisando se seria possível acelerar a travessia de uma árvore Emma Boas (ou qualquer árvore). Dada uma única consulta de pesquisa como e...

4 a resposta

ARM Cortex-A8: Qual é a diferença entre VFP e NEON

No processador ARM Cortex-A8, eu entendo o que é NEON, é um co-processador SIMD. Mas a unidade VFP (Vector Floating Point), que também é um co-processador, funciona como um processador SIMD? Em caso afirmativo, qual é o melhor para usar? Eu li ...

11 a resposta

Como compilar o Tensorflow com as instruções SSE4.2 e AVX?

Esta é a mensagem recebida da execução de um script para verificar se o Tensorflow está funcionando: I tensorflow/stream_executor/dso_loader.cc:125] successfully opened CUDA library libcublas.so.8.0 locally I ...

3 a resposta

Por que essa multiplicação SIMD não é mais rápida que a multiplicação não SIMD?

Vamos supor que temos uma função que multiplica duas matrizes de 1000000 duplos cada. Em C / C ++, a função se parece com isso: void mul_c(double* a, double* b) { for (int i = 0; i != 1000000; ++i) { a[i] = a[i] * b[i]; } }O compilador produz o ...

2 a resposta

Convenção para exibição de registros vetoriais

Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...

3 a resposta

Posso usar as unidades AVX FMA para fazer multiplicações inteiras de 52 bits com precisão exata?

O AXV2 não possui multiplicações de número inteiro com fontes maiores que 32 bits. Oferece32 x 32 -> 32 [http://www.felixcloutier.com/x86/PMULLD.html] multiplica, bem como32 x 32 -> 64 [http://www.felixcloutier.com/x86/PMULDQ.html] $432 x 32 -> ...

4 a resposta

NÃO está faltando no SSE, AVX?

É minha imaginação ou é umPNOT instrução ausente do SSE e AVX? Ou seja, uma instrução que vira cada bit no vetor. Se sim, existe uma maneira melhor de emular isso do quePXOR com um vetor de todos os 1s? Muito chato, pois preciso configurar um ...

0 a resposta

Laço restante ineficaz no meu código

Eu tenho esta função: bool interpolate(const Mat &im, float ofsx, float ofsy, float a11, float a12, float a21, float a22, Mat &res) { bool ret = false; // input size (-1 for the safe bilinear interpolation) const int width = im.cols-1; const int ...

5 a resposta

Como verificar se o código compilado usa instruções sse e avx?

Eu escrevi um código para fazer um monte de matemática e ele precisa ser rápido, por isso preciso usar as instruções SSE e AVX. Estou compilando com g ++ e estou usando as bandeiras-O3 e-march=native, acho que está usando instruções SSE e AVX, ...

4 a resposta

O código SIMD é mais lento que o código escalar

elma eelmc são ambosunsigned long matrizes. Também sãores1 eres2. unsigned long simdstore[2]; __m128i *p, simda, simdb, simdc; p = (__m128i *) simdstore; for (i = 0; i < _polylen; i++) { u1 = (elma[i] >> l) & 15; u2 = (elmc[i] >> l) & 15; for (k ...