Результаты поиска по запросу "cuda"
Звони кублам в ядро
Я хочу использовать Zgemv параллельно. __global__ void S_Cphir(cuDoubleComplex *S,cuDoubleComplex *A,cuDoubleComplex *B, int n,int l) { .... cublasZgemv(handle,CUBLAS_OP_N,n,n,&alpha,S+i*n*n,n,A+n*i,1,&beta,B+i*n,1);} void ...
полезно.
ли в CUDA макрос компилятора #define (nvcc), который я могу использовать? (Как _WIN32 для Windows и т. Д.) Мне нужно это для кода заголовка, который будет общим для компиляторов nvcc и VC ++. Я знаю, что могу пойти дальше и определить свой ...
Будьте осторожны, не смешивая целевые архитектуры x86 и x64 и lib-s. Библиотеки x64, созданные вашими неосновными проектами, должны иметь другое имя или помещаться в другую папку. Кроме того, не забудьте указать --machine 64 вместо --machine 32 для nvcc.
сках ответа на мою проблему я видел несколько постов на форумах и в блогах, посвященных теме «Как настроить, скомпилировать, связать и запустить проект CUDA в VIsual Studio 2008». (Я пытался дать ссылки, но мне не разрешено, как новый постер: ...
Matlab Convolution с использованием GPU
Я попробовал функцию свертки matlab conv2 convn с gpuArray. Например, convn (gpuArray.rand (100,100,10, 'single'), gpuArray.rand (5, 'single') и сравнение его с версией для процессора convn (rand (100,100,10), rand (5)). К сожалению, версия gpu ...
Я получил дополнительную информацию от
ю, что устройства до архитектуры Fermi имели 8 SP в одном мультипроцессоре. То же самое в архитектуре Ферми?
Спасибо за разъяснения. Да, я сделал то же самое вчера. Установил ту же версию CUDA отдельно, также cuDNN и установил путь для CUDA HOME, и это сработало. Но требовался ли cuDNN?
ановил Pytorch через Конда с CUDA 7,5 conda install pytorch=0.3.0 cuda75 -c pytorch >>> import torch >>> torch.cuda.is_available() TrueЯ не делал никаких других установок для CUDA, кроме этого, так как похоже, что Pytorch поставляется с ...
L1 от других SM будет согласован с данными, хранящимися? Или вам все еще нужно указать глобальную загрузку области (L1-не кешируемый)?
смотрел много сообщений на форуме и документацию NVIDIA, но я не мог понять, что__threadfence() делает и как его использовать. Может ли кто-нибудь объяснить, какова цель этого внутреннего?
Выполнение атомарных операций на разделяемой памяти
Как выполняются атомарные операции, когда адрес, который им предоставляется, находится в блочной общей памяти? Во время атомарной операции он приостанавливает доступ к одному и тому же банку совместно используемой памяти другими потоками внутри ...
docs.nvidia.com/cuda/cuda-math-api/...
ного гуглю, но сейчас мне неясно, могут ли некоторые графические процессоры, запрограммированные с CUDA, использовать преимущества или использовать инструкции, аналогичные тем, которые есть в расширениях SSE SIMD; например, можем ли мы ...
В результате возникла проблема со способом вычисления абсолютных значений комплексного числа. в библиотеке std :: complex это вычисляло расстояние вектора.
исал простую тестовую программу, в которой я делал Complex to Complex FT, и я просто сгенерировал некоторые данные 1..50 и вставил их в действительную и мнимую части для каждого индекса массива. Когда я делаю такую операцию, как IFFT (FFT (A)) ...