écnicas para reduzir a latência da transferência de CPU para G

Estive procurando maneiras de reduzir a latência causada pela transferência de dados da CPU e da GPU para frente e para trás. Quando comecei a usar o CUDA, notei que a transferência de dados entre a CPU e a GPU demorou alguns segundos, mas não me importei porque isso não é realmente uma preocupação para os pequenos programas que estou escrevendo. De fato, a latência provavelmente não é um problema para a grande maioria dos programas que utilizam GPUs, incluindo os videogames, porque ainda são muito mais rápidos do que se tivessem rodado na CP

No entanto, sou um pouco entusiasta do HPC e fiquei preocupada com a direção dos meus estudos quando vi uma discrepância maciça entre o pico teórico de Tianhe-I dos FLOPS e o desempenho real do LINPACK. Isso levantou minhas preocupações sobre se estou seguindo o caminho certo na carreira.

O uso de memória fixada (bloqueada por página) através do uso da função cudaHostAlloc () é um método para reduzir a latência (bastante eficaz), mas existem outras técnicas que não conheço? E, para ser claro, estou falando em otimizar o código, não o hardware em si (são os trabalhos da NVIDIA e da AMD

Apenas como uma questão paralela, estou ciente de que a Dell e a HP vendem servidores Tesla. Estou curioso para saber como uma GPU aproveita um aplicativo de banco de dados, onde você precisaria de uma leitura constante do disco rígido (HDD ou SSD), uma operação que somente a CPU pode executar,

questionAnswers(3)

yourAnswerToTheQuestion