Результаты поиска по запросу "cuda"
@ ofer.sheffer: я написал: «Обратите внимание, что если бы размер входных данных не был выражен в виде простого округления, кратного размеру блока, то число блоков необходимо было бы округлить, чтобы охватить полный набор входных данных». Разве это не достаточно ясно?
ичок в CUDA и мне нужна помощь в понимании некоторых вещей. Мне нужна помощь в распараллеливании этих двух циклов. В частности, как настроить dimBlock и dimGrid, чтобы сделать это быстрее. Я знаю, что это выглядит как пример добавления вектора в ...
решает свою собственную маленькую матрицу. Циклическая обработка потока по одной матрице - плохая идея. Если не что-то иное, производительность, получаемая при асинхронном чтении, огромна.
асть более крупной проблемы, мне нужно решить небольшие линейные системы (т.е. NxN, где N ~ 10), поэтому использование соответствующих библиотек cuda не имеет никакого смысла с точки зрения скорости. К сожалению, еще кое-что неясно, как решить ...
Взаимодействие CUDA / OpenGL, рисование в текстуру OpenGL с помощью CUDA
Я пишу систему рендеринга в CUDA и хочу, чтобы результаты быстро отображались через OpenGL, не затрагивая основную память. Я в основном делаю следующее: Создайте и инициализируйте текстуру OpenGL и зарегистрируйте ее в CUDA ...
Да, конечно. Как это может быть по-другому?
я есть ядро, которое вызываетустройствофункция внутри оператора if. Код выглядит следующим образом: __device__ void SetValues(int *ptr,int id) { if(ptr[threadIdx.x]==id) //question related to here ptr[threadIdx.x]++; } __global__ void Kernel(int ...
Действительно, принятый ответ выглядит как настоящая причина.
людаю значительное ускорение передачи данных, когда я использую закрепленную память для передачи данных CUDA. В Linux основной системный вызов для достижения этой цели - mlock. На странице руководства mlock говорится, что блокировка страницы ...
Ниже я приведу пример того, как медианный фильтр может быть реализован с периодическими граничными условиями с использованием текстурной памяти.
отаю над обработкой изображений с CUDA и у меня есть сомнения по поводу обработки пикселей. Что часто делается с граничными пикселями изображения при примененииm x m сверточный фильтр? В3 x 3 ядро свертки, игнорируя1 С границей пикселя ...
CUDA Как получить доступ к постоянной памяти в ядре устройства, когда постоянная память объявлена в коде хоста?
Для справки, это домашнее задание, так что помогите как можно меньше или столько же, помня об этом. Мы используем постоянную память для хранения «маскирующей матрицы», которая будет использоваться для выполнения свертки на большей матрице. Когда ...
@Ashwin: событие записывается, когда оно достигает вершины потока, который действует как FIFO. Когда вы вызываете cudaEventRecord, вы помещаете событие в поток. Если в потоке перед событием есть работа, событие остается необработанным в потоке FIFO до тех пор, пока не завершится каждая операция перед ним. Все эти вызовы являются асинхронными по отношению к вызывающему потоку хоста.
ного запутался в использованииcudaEvent_t, В настоящее время я используюclock() вызовите это, чтобы найти продолжительность вызова ядра: cudaThreadSynchronize(); clock_t begin = clock(); fooKernel<<< x, y >>>( z, w ); cudaThreadSynchronize(); ...
Блестящий ответ, большое спасибо! :)
у вас есть рабочие элементы, выполняющиеся в волновом фронте, и есть условие, такое как: if(x){ ... } else{ .... }Что выполняют рабочие элементы? это тот случай, когда все рабочие элементы в волновом фронте будут выполнять первую ветвь (т.е.x ...
L2 кеш в Кеплере
Как работает кэш L2 в графических процессорах с архитектурой Kepler с точки зрения локальности ссылок? Например, если поток обращается к адресу в глобальной памяти, предполагая, что значение этого адреса отсутствует в кэше L2, как кэшируется ...