Результаты поиска по запросу "cuda"
Генерация случайных чисел: CPU против GPU, который сейчас выигрывает?
Я работал над физическим моделированием, требующим генерации большого количества случайных чисел (по крайней мере, 10 ^ 13, если вам нужна идея). Я использовал C ++ 11 реализацию твистера Мерсенна. Я также читал, что реализация того же алгоритма ...
Различные режимы адресации текстур CUDA
Я использую текстуру CUDA в режиме адресации границы (cudaAddressModeBorder). Я читаю координаты текстуры, используяtex2D<float>(), Когда координаты текстуры выходят за пределы текстуры,tex2D<float>() возвращается0. Как я могу изменить это ...
полагаться на это поведение, хотя.
чебника, который я пишу, я ищу «реалистичный» и простой пример тупика, вызванного незнанием SIMT / SIMD. Я придумал этот фрагмент, который, кажется, хороший пример. Любой вклад будет оценен. … int x = threadID / 2; if (threadID > x) { ...
Да, и второй сегмент, как вы и говорите, - заблокированная страница памяти, которую мой код явно использует для ускорения передачи данных.
того, я заметил, что моя программа c (с использованием CUDA 3.2) имеет виртуальный размер 28 г или более (если смотреть на VIRT) при каждом запуске с самого начала. Это не имеет никакого смысла для меня. Резидентная память имеет смысл и ...
Я думаю, что вы в целом правы, но это зависит от того, можно ли рассчитать значение инициализации из них или имеет более сложный числовой / и т.д. шаблон назначения.
отрим следующий код: __global__ void kernel(int *something) { extern __shared__ int shared_array[]; // Some operations on shared_array here. }Можно ли установить целый shared_array в какое-то значение - например, 0 - без явного обращения к ...
Ого, круто! Спасибо!
ал документацию по CUDA, и мне кажется, что каждый буфер, который должен взаимодействовать с OpenGL, должен быть создан в glBuffer. Согласно руководству по программированию nvidia, это должно быть сделано так: GLuint positionsVBO; struct ...
Для меня это означает, что каждый SM может иметь 2 * 32 = 64 потоков, работающих одновременно. Я не знаю, означает ли это, что GPU может иметь в общей сложности 16 * 64 = 1024 потоков, работающих одновременно.
я есть GeForce GTX 580, и я хочу сделать заявление об общем количестве потоков, которые (в идеале) могут работать параллельно, по сравнению с 2 или 4 многоядерными процессорами. deviceQuery предоставляет следующую возможную информацию: CUDA ...
Если задержка является проблемой, возможно, стоит рассмотреть компромиссы, которые вы можете сделать с архитектурой AMD Fusion. Задержка, которую вы получаете, существенно минимизируется и в некоторых случаях может быть быстрее, чем загрузка ЦП из ОЗУ. Тем не менее, вы получаете удар производительности с использованием уменьшенного недискретного графического процессора.
ал способы уменьшить задержку, вызванную передачей данных назад и вперед от CPU и GPU. Когда я впервые начал использовать CUDA, я заметил, что передача данных между процессором и графическим процессором заняла несколько секунд, но мне было все ...
Сбой компиляции кода, содержащего динамический параллелизм
Я занимаюсь программированием динамического параллелизма с использованием CUDA 5.5 и NVDIA GeForce GTX 780, вычислительная мощность которых составляет 3,5. Я вызываю функцию ядра внутри функции ядра, но она дает мне ошибку: ошибка: вызов функции ...
Ой. (подразумеваемые объяснения) Желание, которое было заявлено более заметно. Спасибо @talonmies.
ал писать новое приложение CUDA. Однако я попал в забавный обходной путь. Вызов первого cudaMalloc для переменной x завершается неудачно в первый раз. Однако, когда я вызываю его во второй раз, он возвращает cudaSuccess. Недавно обновленный до ...