Resultados da pesquisa a pedido "sse"

Estou trabalhando em uma otimização SIMD da conversão de BGR para escala de cinza que é equivalente aOpenCV'scvtColor() função [http://docs.opencv.org/2.4/modules/imgproc/doc/miscellaneous_transformations.html] . Existe uma versão Intel SSE dessa ...

matrix assembly simd x86

3 a resposta

transpor para 8 registros de elementos de 16 bits no SSE2 / SSSE3

(Sou novato no SSE / asm, desculpe-me se isso for óbvio ou redundante) Existe uma maneira melhor de transpor 8 registros SSE contendo valores de 16 bits do que executar 24 unpck [lh] ps e 8/16 + shuffles e usar 8 registros extras? (Observe ...

c++visual-studio-2013 c++11

1 a resposta

Instruções SSE 4 geradas pelo Visual Studio 2013 Update 2 e Update 3

Se eu compilar esse código no VS 2013, atualização 2 ou atualização 3: (abaixo vem da atualização 3) #include "stdafx.h" #include <iostream> #include <random> struct Buffer { long* data; int count; }; #ifndef max #define max(a,b) (((a) > (b)) ? ...

parallel-processing memset multithreading openmp

1 a resposta

memset em paralelo com threads vinculadas a cada núcleo físico

Eu tenho testado o código emEm um código paralelo do OpenMP, haveria algum benefício para o memset ser executado em ...

assembly

4 a resposta

Carregar flutuações constantes nos registros SSE

Estou tentando descobrir uma maneira eficiente de carregar flutuações constantes de tempo de compilação nos registros SSE (2/3). Eu tentei fazer código simples como este, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.0f };mas isso gera 4 instruções ...

performance x86 delphi

5 a resposta

A maneira mais eficiente de subtrair uma matriz de outra

Eu tenho o código a seguir, que é o gargalo em uma parte do meu aplicativo. Tudo o que faço é subtrair o Array de outro. Ambas as matrizes têm mais de 100000 elementos. Estou tentando encontrar uma maneira de tornar isso mais eficiente. var ...

c++avx

4 a resposta

as variáveis SSE / AVX locais estáticas / estáticas estão bloqueando um registro xmm / ymm?

Ao usar intrínsecas SSE, geralmente são necessários zero vetores. Uma maneira de evitar a criação de uma variável zero dentro de uma função sempre que a função é chamada (cada vez que efetivamente chamamos alguma instrução vetorial xor) ...

c x86 simd

3 a resposta

Testando a igualdade entre duas variáveis __m128i

Se eu quiser fazer um teste de igualdade bit a bit entre dois__m128i variáveis, sou obrigado a usar uma instrução SSE ou posso usar==? Caso contrário, qual instrução SSE devo usar?

intel hash crc32

5 a resposta

Pode-se construir uma função hash “boa” usando o CRC32C como base?

Dado que o SSE 4.2 (partes do Intel Core i7 e i5) inclui uma instrução CRC32, parece razoável investigar se é possível criar uma função hash de propósito geral mais rápida. De acordo comesta [http://home.comcast.net/~bretm/hash/8.html]somente 16 ...

python numpy assembly c

2 a resposta

numpy around / rint slow comparado ao astype (int)

Então, se eu tiver algo comox=np.random.rand(60000)*400-200. iPython's%timeit diz: x.astype(int) leva 0.14msnp.rint(x) enp.around(x) tomar 1.01msObserve que norint earound casos, você ainda precisa gastar 0,14 ms extra para fazer ...

Página 11 do 17

9 101112 13

Resultados da pesquisa a pedido "sse"

Otimização SIMD do cvtColor usando intrínsecas ARM NEON

transpor para 8 registros de elementos de 16 bits no SSE2 / SSSE3

Instruções SSE 4 geradas pelo Visual Studio 2013 Update 2 e Update 3

Tags populares

memset em paralelo com threads vinculadas a cada núcleo físico

Carregar flutuações constantes nos registros SSE

A maneira mais eficiente de subtrair uma matriz de outra

as variáveis SSE / AVX locais estáticas / estáticas estão bloqueando um registro xmm / ymm?

Testando a igualdade entre duas variáveis __m128i

Pode-se construir uma função hash “boa” usando o CRC32C como base?

numpy around / rint slow comparado ao astype (int)

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "sse"

Tags populares