Para quais tamanhos as cargas simples são armazenadas na memória global no CUDA Atomic?

São leituras e gravações gerais na memória global atômica no CUDA se:

É uma instrução de 4 bytes? (Presumo que sim)É uma instrução de 8 ou 16 bytes? (Presumo que sim)

São pelo menos em Kepler e Fermi leituras e gravações gerais de 4 bytes na memória global atômica no nível Warp ou instruções de 8/16 bytes atômicas no nível Warp meio / quarto se:

Todos os threads warp acessam o mesmo bloco de transações L2 de 32 bytes? (Presumo que sim)Threads warp acessam diferentes blocos de transação L2 de 32 bytes, mas todos os threads warp acessam a mesma linha de cache L2 de 128 bytes? (Presumo que não)Todos os threads warp acessam diferentes linhas de cache L2? (Presumo que não)

Se alguma dessas suposições sobre a atomicidade no nível de dobra estiver correta, existe algum método para aproveitar esse conhecimento sem arriscar a compatibilidade com futuras capacidades de computação?

questionAnswers(1)

yourAnswerToTheQuestion