Результаты поиска по запросу "cuda"

1 ответ

 вызов.

я есть некоторые функции, которые загружают переменную в постоянную память устройства и запускают функцию ядра. Я заметил, что первый раз, когда одна функция загружает переменную в постоянную память, занимает 0,6 секунды, но следующие загрузки в ...

4 ответа

Обратите внимание, что, несмотря на улучшения в аппаратных средствах Tesla2 и Fermi, коалесцирование отнюдь не означает устаревание. Даже на оборудовании класса Tesla2 или Fermi, неспособность объединить глобальные транзакции памяти может привести к удвоению производительности. (На оборудовании класса Fermi это похоже на правду, только когда включен ECC. Непрерывные, но не слипшиеся транзакции с памятью занимают около 20% в Fermi.)

вляется «объединенным» в глобальной транзакции памяти CUDA? Я не мог понять даже после прохождения моего руководства CUDA. Как это сделать? В примере матрицы руководства по программированию CUDA, доступ к матрице строка за строкой называется ...

1 ответ

Это связано с тем, что существует множество различных вариантов кода для разных плат вычислительных возможностей, поэтому для поддержания разумного размера двоичного файла в предварительно собранном двоичном файле поддерживается только выбранный диапазон вычислительных возможностей.

дя обучение по установке для Linux (Tensorflow 1.8), и я не уверен, как интерпретировать фразу: Карта GPU с CUDA Compute Capability 3.0 или выше для сборки из исходного кода и 3.5 или выше для наших двоичных файлов. См. Документацию NVIDIA для ...

ТОП публикаций

4 ответа

Установите версию tenorflow gpu:

етил, что некоторые новые версии TensorFlow несовместимы со старыми версиями CUDA и cuDNN. Существует ли обзор совместимых версий или даже список официально протестированных комбинаций? Я не могу найти это в документации TensorFlow.

1 ответ

В качестве альтернативы, вы можете передать -1 маске, чтобы установить все биты:

щен __shfl_down и __shfl_down_sync, они дают разные результаты. __global__ void shufledown1(double* a, double *b,double *c, int N) { double temp = 2.0; __syncthreads(); for (int offset = 32/2; offset > 0; offset /= 2){ temp+=__shfl_down(temp, ...

1 ответ

Как определить поток устройства назначения в cudaMemcpyPeerAsync ()?

Я делаю асинхронный memcpy из gpu0 в gpu1 с помощью cudaMemcpyPeerAsync (). cudaMemcpyAsync () предоставляет возможность использования потока для gpu0, но не для gpu1. Можно ли как-то определить поток принимающего устройства тоже? Я использую ...

1 ответ

CUDA Peer-to-Peer через концентраторы ввода / вывода

Существует ли запись SBIOS или другое изменение конфигурации, которое позволит одноранговой сети работать для CUDA через ссылки QPI, которые соединяют концентраторы ввода-вывода (или сокеты, в случае ЦП, которые интегрируют концентратор ...

1 ответ

 обсуждает размещение. Большинство инструкций имеют задержку 22 цикла и занимают SM от 1 до 2 циклов. В руководстве есть несколько таблиц. Это означает, что вам нужно от 11 до 22 одновременных деформаций на SM для насыщения арифметической единицы.

шелРуководство по программированию Cuda [http://developer.download.nvidia.com/compute/cuda/3_2_prod/toolkit/docs/CUDA_C_Programming_Guide.pdf] но все еще не ясно, уступит ли варп в пользу другого готового к исполнению варпа? Любое объяснение или ...

1 ответ

Я думаю, что поддержка CUDA с MSVC была добавлена ​​только в 3.9, поэтому я выбрал это.

ke версии 3.8 была введена встроенная поддержка CUDA как языка. Когда проект имеет CUDA в качестве одного из своих языков, CMake переходит к поиску CUDA (например, он находит двоичный файл nvcc). Пока вы только компилируете код CUDA - этого ...

2 ответа

2d массив символов для ядра CUDA

Мне нужна помощь с переводом char [] [] в ядро Cuda. Это мой код: __global__ void kernel(char** BiExponent){ for(int i=0; i<500; i++) printf("%c",BiExponent[1][i]); // I want print line 1 } int main(){ char (*Bi2dChar)[500] = new char ...