Resultados da pesquisa a pedido "avx"

1 a resposta

Onde está o intrínseco '_mm256_pow_ps' de Clang?

Não consigo encontrar os intrínsecos para _mm_pow_ps ou _mm256_pow_ps, os quais devem estar incluídos no 'immintrin.h'. Clang não define isso ou eles estão em um cabeçalho que não estou incluindo?

4 a resposta

Como obter dados dos registros AVX?

Usando o MSVC 2013 e o AVX 1, tenho 8 carros alegóricos em um registro: __m256 foo = mm256_fmadd_ps(a,b,c);Agora eu quero ligarinline void print(float) {...} para todos os 8 carros alegóricos. Parece que oIntel A intricada AVX tornaria isso ...

1 a resposta

Nova sintaxe de instruções do AVX

Eu tinha um código C escrito com alguns intel-intrinsincs. Depois de compilá-lo primeiro com avx e depois com sinalizadores ssse3, obtive dois códigos de montagem bem diferentes. Por exemplo: AVX: vpunpckhbw %xmm0, %xmm1, %xmm2SSSE3: movdqa ...

1 a resposta

AVX2, como carregar com eficiência quatro números inteiros em índices pares de um registro de 256 bits e copiar em índices ímpares?

Eu tenho uma matriz alinhada de números inteiros na memória contendo os índices I0, I1, I2, I3. Meu objetivo é colocá-los em um registro __m256i contendo I0, I0 + 1, I1, I1 + 1, I2, I2 + 1, I3, I3 + 1. A parte mais difícil é colocá-los ...

2 a resposta

Qual é a versão mínima do OS X para uso com o AVX / AVX2?

Eu tenho uma rotina de desenho de imagem que é compilada várias vezes para SSE, SSE2, SSE3, SSE4.1, SSE4.2, AVX e AVX2. Meu programa envia dinamicamente uma dessas variações binárias verificando sinalizadores CPUID. No Windows, verifico a versão ...

1 a resposta

Deslocando 4 números inteiros para a direita por valores diferentes SIMD

O SSE não fornece uma maneira de mudar números inteiros compactados por uma quantidade variável (eu posso usar qualquer instrução AVX e mais antiga). Você só pode fazer turnos uniformes. O resultado que estou tentando obter para cada número ...

0 a resposta

Como executar com eficiência conversões duplas / int64 com SSE / AVX?

O SSE2 possui instruções para converter vetores entre flutuadores de precisão única e números inteiros de 32 bits. _mm_cvtps_epi32()_mm_cvtepi32_ps()Mas não há equivalentes para números inteiros de precisão dupla e 64 bits. Em outras palavras, ...

2 a resposta

Por que esse código SSE é 6 vezes mais lento sem o VZEROUPPER no Skylake?

Eu tenho tentado descobrir um problema de desempenho em um aplicativo e finalmente o reduzi a um problema realmente estranho. O código a seguir é executado 6 vezes mais devagar em uma CPU Skylake (i5-6500) se oVZEROUPPER a instrução é comentada. ...

2 a resposta

Convenção para exibição de registros vetoriais

Existe uma convenção para exibir / gravar registros grandes, como os disponíveis no conjunto de instruções do Intel AVX? Por exemplo, se você tiver 1 no byte menos significativo e 20 no byte mais significativo e 0 em outro lugar de umxmm ...

3 a resposta

Desabilitar funções otimizadas para AVX no glibc (LD_HWCAP_MASK, /etc/ld.so.nohwcap) para registro valgrind e gdb

O linux x86_64 moderno com glibc detectará que a CPU suporta a extensão AVX e alternará muitas funções de string da implementação genérica para aOtimizado para ...