Resultados da pesquisa a pedido "sse"
Otimização SIMD do cvtColor usando intrínsecas ARM NEON
Estou trabalhando em uma otimização SIMD da conversão de BGR para escala de cinza que é equivalente aOpenCV'scvtColor() função [http://docs.opencv.org/2.4/modules/imgproc/doc/miscellaneous_transformations.html] . Existe uma versão Intel SSE dessa ...
transpor para 8 registros de elementos de 16 bits no SSE2 / SSSE3
(Sou novato no SSE / asm, desculpe-me se isso for óbvio ou redundante) Existe uma maneira melhor de transpor 8 registros SSE contendo valores de 16 bits do que executar 24 unpck [lh] ps e 8/16 + shuffles e usar 8 registros extras? (Observe ...
Instruções SSE 4 geradas pelo Visual Studio 2013 Update 2 e Update 3
Se eu compilar esse código no VS 2013, atualização 2 ou atualização 3: (abaixo vem da atualização 3) #include "stdafx.h" #include <iostream> #include <random> struct Buffer { long* data; int count; }; #ifndef max #define max(a,b) (((a) > (b)) ? ...
memset em paralelo com threads vinculadas a cada núcleo físico
Eu tenho testado o código emEm um código paralelo do OpenMP, haveria algum benefício para o memset ser executado em ...
Carregar flutuações constantes nos registros SSE
Estou tentando descobrir uma maneira eficiente de carregar flutuações constantes de tempo de compilação nos registros SSE (2/3). Eu tentei fazer código simples como este, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.0f };mas isso gera 4 instruções ...
A maneira mais eficiente de subtrair uma matriz de outra
Eu tenho o código a seguir, que é o gargalo em uma parte do meu aplicativo. Tudo o que faço é subtrair o Array de outro. Ambas as matrizes têm mais de 100000 elementos. Estou tentando encontrar uma maneira de tornar isso mais eficiente. var ...
as variáveis SSE / AVX locais estáticas / estáticas estão bloqueando um registro xmm / ymm?
Ao usar intrínsecas SSE, geralmente são necessários zero vetores. Uma maneira de evitar a criação de uma variável zero dentro de uma função sempre que a função é chamada (cada vez que efetivamente chamamos alguma instrução vetorial xor) ...
Testando a igualdade entre duas variáveis __m128i
Se eu quiser fazer um teste de igualdade bit a bit entre dois__m128i variáveis, sou obrigado a usar uma instrução SSE ou posso usar==? Caso contrário, qual instrução SSE devo usar?
Pode-se construir uma função hash “boa” usando o CRC32C como base?
Dado que o SSE 4.2 (partes do Intel Core i7 e i5) inclui uma instrução CRC32, parece razoável investigar se é possível criar uma função hash de propósito geral mais rápida. De acordo comesta [http://home.comcast.net/~bretm/hash/8.html]somente 16 ...
numpy around / rint slow comparado ao astype (int)
Então, se eu tiver algo comox=np.random.rand(60000)*400-200. iPython's%timeit diz: x.astype(int) leva 0.14msnp.rint(x) enp.around(x) tomar 1.01msObserve que norint earound casos, você ainda precisa gastar 0,14 ms extra para fazer ...