Resultados da pesquisa a pedido "intel"
O GCC compila mal a contagem zero inicial, a menos que Haswell especifique
O GCC suporta o__builtin_clz(int x) [https://gcc.gnu.org/onlinedocs/gcc-6.2.0/gcc/Other-Builtins.html#index-g_t_005f_005fbuiltin_005fclz-4249] embutido, que conta o número de número dezeros à esquerda (zeros mais significativos consecutivos) no ...
Guia intrínseco da Intel - latência e taxa de transferência
Alguém pode explicar os valores de Latência e Taxa de transferência dados noGuia intrínseco da Intel [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#]? Entendi corretamente que a latência é a quantidade de unidades de tempo que ...
A placa gráfica baseada em Intel é compatível com tensorflow / GPU?
Esta placa gráfica é compatível com tensorflow / GPU? *-display description: VGA compatible controller product: Haswell-ULT Integrated Graphics Controller vendor: Intel Corporation physical id: 2 bus info: pci@0000:00:02.0 version: 09 width: 64 ...
Por que Skylake é muito melhor que Broadwell-E para taxa de transferência de memória de thread único?
Temos uma referência simples de taxa de transferência de memória. Tudo o que faz é memcpy repetidamente para um grande bloco de memória. Observando os resultados (compilados para 64 bits) em algumas máquinas diferentes, as máquinas Skylake se ...
Alinhamento e comportamento estranho do SSE
Eu tento trabalhar com o SSE e me deparei com um comportamento estranho. Eu escrevo um código simples para comparar duas strings com o SSE Intrinsics, execute-o e funcione. Mas depois eu entendo que no meu código um dos ponteiros ainda não está ...
Onde está o VPERMB no AVX2?
O AVX2 tem muitas coisas boas. Por exemplo, ele possui muitas instruções estritamente mais poderosas que seus precursores. TomaVPERMD [http://www.felixcloutier.com/x86/VPERMD.html]: permite transmitir / embaralhar / permutar totalmente ...
x86_64: IMUL é mais rápido que 2x SHL + 2x AD
Ao ver a montagem produzida pelo Visual Studio (2015U2) em/O2odo @ (release) Vi que esse trecho de código C 'otimizado à mão' é convertido novamente em uma multiplicação: int64_t calc(int64_t a) { return (a << 6) + (a << 16) - a; }Montagem imul ...
Desoptimização de um programa para o pipeline nas CPUs da família Intel Sandybridge
Estou atormentando meu cérebro há uma semana tentando concluir essa tarefa e espero que alguém aqui possa me levar ao caminho certo. Deixe-me começar com as instruções do instrutor: Sua tarefa é o oposto de nossa primeira tarefa de ...
Criar imagem do Docker para arquitetura ARM em máquinas Intel (Mac)
Eu gostaria de poder criar uma imagem do Docker para ARM no meu Mac. Eu sei que posso executar contêineres ARM no meu Mac usando QEMU, mas não consigo descobrir como criar para o ARM.
Instrução FMA _mm256_fmadd_pd (): “132”, “231” e “213”?
Alguém poderia me explicar por que existem 3 variantes da instrução de multiplicar e acumular com fusão:vfmadd132pd, vfmadd231pd evfmadd213pd, enquanto houver apenas um C intrínseco_mm256_fmadd_pd? Para simplificar, qual é a diferença entre (na ...