Resultados da pesquisa a pedido "intel"

1 a resposta

O GCC compila mal a contagem zero inicial, a menos que Haswell especifique

O GCC suporta o__builtin_clz(int x) [https://gcc.gnu.org/onlinedocs/gcc-6.2.0/gcc/Other-Builtins.html#index-g_t_005f_005fbuiltin_005fclz-4249] embutido, que conta o número de número dezeros à esquerda (zeros mais significativos consecutivos) no ...

1 a resposta

Guia intrínseco da Intel - latência e taxa de transferência

Alguém pode explicar os valores de Latência e Taxa de transferência dados noGuia intrínseco da Intel [https://software.intel.com/sites/landingpage/IntrinsicsGuide/#]? Entendi corretamente que a latência é a quantidade de unidades de tempo que ...

1 a resposta

A placa gráfica baseada em Intel é compatível com tensorflow / GPU?

Esta placa gráfica é compatível com tensorflow / GPU? *-display description: VGA compatible controller product: Haswell-ULT Integrated Graphics Controller vendor: Intel Corporation physical id: 2 bus info: pci@0000:00:02.0 version: 09 width: 64 ...

2 a resposta

Por que Skylake é muito melhor que Broadwell-E para taxa de transferência de memória de thread único?

Temos uma referência simples de taxa de transferência de memória. Tudo o que faz é memcpy repetidamente para um grande bloco de memória. Observando os resultados (compilados para 64 bits) em algumas máquinas diferentes, as máquinas Skylake se ...

1 a resposta

Alinhamento e comportamento estranho do SSE

Eu tento trabalhar com o SSE e me deparei com um comportamento estranho. Eu escrevo um código simples para comparar duas strings com o SSE Intrinsics, execute-o e funcione. Mas depois eu entendo que no meu código um dos ponteiros ainda não está ...

1 a resposta

Onde está o VPERMB no AVX2?

O AVX2 tem muitas coisas boas. Por exemplo, ele possui muitas instruções estritamente mais poderosas que seus precursores. TomaVPERMD [http://www.felixcloutier.com/x86/VPERMD.html]: permite transmitir / embaralhar / permutar totalmente ...

1 a resposta

x86_64: IMUL é mais rápido que 2x SHL + 2x AD

Ao ver a montagem produzida pelo Visual Studio (2015U2) em/O2odo @ (release) Vi que esse trecho de código C 'otimizado à mão' é convertido novamente em uma multiplicação: int64_t calc(int64_t a) { return (a << 6) + (a << 16) - a; }Montagem imul ...

4 a resposta

Desoptimização de um programa para o pipeline nas CPUs da família Intel Sandybridge

Estou atormentando meu cérebro há uma semana tentando concluir essa tarefa e espero que alguém aqui possa me levar ao caminho certo. Deixe-me começar com as instruções do instrutor: Sua tarefa é o oposto de nossa primeira tarefa de ...

1 a resposta

Criar imagem do Docker para arquitetura ARM em máquinas Intel (Mac)

Eu gostaria de poder criar uma imagem do Docker para ARM no meu Mac. Eu sei que posso executar contêineres ARM no meu Mac usando QEMU, mas não consigo descobrir como criar para o ARM.

2 a resposta

Instrução FMA _mm256_fmadd_pd (): “132”, “231” e “213”?

Alguém poderia me explicar por que existem 3 variantes da instrução de multiplicar e acumular com fusão:vfmadd132pd, vfmadd231pd evfmadd213pd, enquanto houver apenas um C intrínseco_mm256_fmadd_pd? Para simplificar, qual é a diferença entre (na ...