Resultados da pesquisa a pedido "sse"

2 a resposta

A melhor maneira de mudar um __m128i?

Eu preciso mudar uma variável __m128i, (digamos v), por m bits, de maneira que os bits se movam por toda a variável (portanto, a variável resultante representa v * 2 ^ m). Qual é a melhor maneira de fazer isso ?! Observe que _mm_slli_epi64 ...

2 a resposta

No GNU C inline asm, quais são os modificadores de xmm / ymm / zmm para um único operando?

Ao tentar responderTransmissões incorporadas com intrínseca e montagem [https://stackoverflow.com/questions/34415238/embedded-broadcasts-with-intrinsics-and-assembly] , Eu estava tentando fazer algo assim: __m512 mul_broad(__m512 a, float b) { ...

2 a resposta

Como converter com eficiência um bitmap de 8 bits em uma matriz de números inteiros 0/1 com x86 SIMD

Eu quero converter inteiro de 8 bits em uma matriz de tamanho 8 com cada valor contendo o valor de bit de um inteiro. Por exemplo: eu tenhoint8_t x = 8; Eu quero converter isso paraint8_t array_x = {0,0,0,0,1,0,0,0}; Isso deve ser feito com ...

1 a resposta

Quais são as melhores seqüências de instruções para gerar constantes vetoriais em tempo real?

"Melhor" significa o menor número de instruções (ou o menor número de uops, se houver alguma instrução decodificada para mais de um uop). O tamanho do código da máquina em bytes é um desempatador para igual número de insn. A geração constante é, ...

2 a resposta

Como implementar atoi usando SIMD?

Eu gostaria de tentar escrever uma implementação atoi usando instruções SIMD, para ser incluída noRapidJSON [http://rapidjson.org/](uma biblioteca de leitor / gravador C ++ JSON). Atualmente, há algumas otimizações do SSE2 e SSE4.2 em outros ...

2 a resposta

Os índices de bytes diferentes de zero de um registro SSE / AVX

Se o valor de um registro SSE / AVX for tal que todos os seus bytes sejam 0 ou 1, existe alguma maneira de obter com eficiência os índices de todos os elementos diferentes de zero? Por exemplo, se o valor xmm for | r0 = 0 | r1 = 1 | r2 = 0 | r3 ...

1 a resposta

Instrução SSE MOVSD (estendida: operações escalares e vetoriais de ponto flutuante em x86, x86-64)

De alguma forma, estou confuso com as instruções de montagem do MOVSD. Escrevi algum código numérico calculando alguma multiplicação de matriz, simplesmente usando código C comum, sem intrínsecas SSE. Eu nem incluo o arquivo de cabeçalho para ...

1 a resposta

A maneira mais eficiente de obter __m256 de somas horizontais de 8 fonte __m256 vetores

Eu sei somar um__m256 para obter um único valor somado. No entanto, tenho 8 vetores como Input 1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7], ....., ....., 8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], ...

1 a resposta

Onde está o intrínseco '_mm256_pow_ps' de Clang?

Não consigo encontrar os intrínsecos para _mm_pow_ps ou _mm256_pow_ps, os quais devem estar incluídos no 'immintrin.h'. Clang não define isso ou eles estão em um cabeçalho que não estou incluindo?

1 a resposta

NEON, SSE e cargas intercaladas vs shuffles

Estou tentando entender o comentário feito por "Não existirei idonotexista" em Otimização SIMD do cvtColor usando intrínsecas ARM NEON [https://stackoverflow.com/q/24977272]: ... por que você não usa as intrísticas ARM NEON que mapeiam para a ...