Результаты поиска по запросу "cuda"
вызов.
я есть некоторые функции, которые загружают переменную в постоянную память устройства и запускают функцию ядра. Я заметил, что первый раз, когда одна функция загружает переменную в постоянную память, занимает 0,6 секунды, но следующие загрузки в ...
Обратите внимание, что, несмотря на улучшения в аппаратных средствах Tesla2 и Fermi, коалесцирование отнюдь не означает устаревание. Даже на оборудовании класса Tesla2 или Fermi, неспособность объединить глобальные транзакции памяти может привести к удвоению производительности. (На оборудовании класса Fermi это похоже на правду, только когда включен ECC. Непрерывные, но не слипшиеся транзакции с памятью занимают около 20% в Fermi.)
вляется «объединенным» в глобальной транзакции памяти CUDA? Я не мог понять даже после прохождения моего руководства CUDA. Как это сделать? В примере матрицы руководства по программированию CUDA, доступ к матрице строка за строкой называется ...
Это связано с тем, что существует множество различных вариантов кода для разных плат вычислительных возможностей, поэтому для поддержания разумного размера двоичного файла в предварительно собранном двоичном файле поддерживается только выбранный диапазон вычислительных возможностей.
дя обучение по установке для Linux (Tensorflow 1.8), и я не уверен, как интерпретировать фразу: Карта GPU с CUDA Compute Capability 3.0 или выше для сборки из исходного кода и 3.5 или выше для наших двоичных файлов. См. Документацию NVIDIA для ...
Установите версию tenorflow gpu:
етил, что некоторые новые версии TensorFlow несовместимы со старыми версиями CUDA и cuDNN. Существует ли обзор совместимых версий или даже список официально протестированных комбинаций? Я не могу найти это в документации TensorFlow.
В качестве альтернативы, вы можете передать -1 маске, чтобы установить все биты:
щен __shfl_down и __shfl_down_sync, они дают разные результаты. __global__ void shufledown1(double* a, double *b,double *c, int N) { double temp = 2.0; __syncthreads(); for (int offset = 32/2; offset > 0; offset /= 2){ temp+=__shfl_down(temp, ...
Как определить поток устройства назначения в cudaMemcpyPeerAsync ()?
Я делаю асинхронный memcpy из gpu0 в gpu1 с помощью cudaMemcpyPeerAsync (). cudaMemcpyAsync () предоставляет возможность использования потока для gpu0, но не для gpu1. Можно ли как-то определить поток принимающего устройства тоже? Я использую ...
CUDA Peer-to-Peer через концентраторы ввода / вывода
Существует ли запись SBIOS или другое изменение конфигурации, которое позволит одноранговой сети работать для CUDA через ссылки QPI, которые соединяют концентраторы ввода-вывода (или сокеты, в случае ЦП, которые интегрируют концентратор ...
обсуждает размещение. Большинство инструкций имеют задержку 22 цикла и занимают SM от 1 до 2 циклов. В руководстве есть несколько таблиц. Это означает, что вам нужно от 11 до 22 одновременных деформаций на SM для насыщения арифметической единицы.
шелРуководство по программированию Cuda [http://developer.download.nvidia.com/compute/cuda/3_2_prod/toolkit/docs/CUDA_C_Programming_Guide.pdf] но все еще не ясно, уступит ли варп в пользу другого готового к исполнению варпа? Любое объяснение или ...
Я думаю, что поддержка CUDA с MSVC была добавлена только в 3.9, поэтому я выбрал это.
ke версии 3.8 была введена встроенная поддержка CUDA как языка. Когда проект имеет CUDA в качестве одного из своих языков, CMake переходит к поиску CUDA (например, он находит двоичный файл nvcc). Пока вы только компилируете код CUDA - этого ...
2d массив символов для ядра CUDA
Мне нужна помощь с переводом char [] [] в ядро Cuda. Это мой код: __global__ void kernel(char** BiExponent){ for(int i=0; i<500; i++) printf("%c",BiExponent[1][i]); // I want print line 1 } int main(){ char (*Bi2dChar)[500] = new char ...