Результаты поиска по запросу "cuda"

2 ответа

Генерация случайных чисел: CPU против GPU, который сейчас выигрывает?

Я работал над физическим моделированием, требующим генерации большого количества случайных чисел (по крайней мере, 10 ^ 13, если вам нужна идея). Я использовал C ++ 11 реализацию твистера Мерсенна. Я также читал, что реализация того же алгоритма ...

2 ответа

Различные режимы адресации текстур CUDA

Я использую текстуру CUDA в режиме адресации границы (cudaAddressModeBorder). Я читаю координаты текстуры, используяtex2D<float>(), Когда координаты текстуры выходят за пределы текстуры,tex2D<float>() возвращается0. Как я могу изменить это ...

1 ответ

 полагаться на это поведение, хотя.

чебника, который я пишу, я ищу «реалистичный» и простой пример тупика, вызванного незнанием SIMT / SIMD. Я придумал этот фрагмент, который, кажется, хороший пример. Любой вклад будет оценен. … int x = threadID / 2; if (threadID > x) { ...

ТОП публикаций

0 ответов

Да, и второй сегмент, как вы и говорите, - заблокированная страница памяти, которую мой код явно использует для ускорения передачи данных.

того, я заметил, что моя программа c (с использованием CUDA 3.2) имеет виртуальный размер 28 г или более (если смотреть на VIRT) при каждом запуске с самого начала. Это не имеет никакого смысла для меня. Резидентная память имеет смысл и ...

3 ответа

Я думаю, что вы в целом правы, но это зависит от того, можно ли рассчитать значение инициализации из них или имеет более сложный числовой / и т.д. шаблон назначения.

отрим следующий код: __global__ void kernel(int *something) { extern __shared__ int shared_array[]; // Some operations on shared_array here. }Можно ли установить целый shared_array в какое-то значение - например, 0 - без явного обращения к ...

2 ответа

Ого, круто! Спасибо!

ал документацию по CUDA, и мне кажется, что каждый буфер, который должен взаимодействовать с OpenGL, должен быть создан в glBuffer. Согласно руководству по программированию nvidia, это должно быть сделано так: GLuint positionsVBO; struct ...

3 ответа

Для меня это означает, что каждый SM может иметь 2 * 32 = 64 потоков, работающих одновременно. Я не знаю, означает ли это, что GPU может иметь в общей сложности 16 * 64 = 1024 потоков, работающих одновременно.

я есть GeForce GTX 580, и я хочу сделать заявление об общем количестве потоков, которые (в идеале) могут работать параллельно, по сравнению с 2 или 4 многоядерными процессорами. deviceQuery предоставляет следующую возможную информацию: CUDA ...

1 ответ

Если задержка является проблемой, возможно, стоит рассмотреть компромиссы, которые вы можете сделать с архитектурой AMD Fusion. Задержка, которую вы получаете, существенно минимизируется и в некоторых случаях может быть быстрее, чем загрузка ЦП из ОЗУ. Тем не менее, вы получаете удар производительности с использованием уменьшенного недискретного графического процессора.

ал способы уменьшить задержку, вызванную передачей данных назад и вперед от CPU и GPU. Когда я впервые начал использовать CUDA, я заметил, что передача данных между процессором и графическим процессором заняла несколько секунд, но мне было все ...

3 ответа

Сбой компиляции кода, содержащего динамический параллелизм

Я занимаюсь программированием динамического параллелизма с использованием CUDA 5.5 и NVDIA GeForce GTX 780, вычислительная мощность которых составляет 3,5. Я вызываю функцию ядра внутри функции ядра, но она дает мне ошибку: ошибка: вызов функции ...

2 ответа

Ой. (подразумеваемые объяснения) Желание, которое было заявлено более заметно. Спасибо @talonmies.

ал писать новое приложение CUDA. Однако я попал в забавный обходной путь. Вызов первого cudaMalloc для переменной x завершается неудачно в первый раз. Однако, когда я вызываю его во второй раз, он возвращает cudaSuccess. Недавно обновленный до ...