Результаты поиска по запросу "cuda"

1 ответ

Звони кублам в ядро

Я хочу использовать Zgemv параллельно. __global__ void S_Cphir(cuDoubleComplex *S,cuDoubleComplex *A,cuDoubleComplex *B, int n,int l) { .... cublasZgemv(handle,CUBLAS_OP_N,n,n,&alpha,S+i*n*n,n,A+n*i,1,&beta,B+i*n,1);} void ...

0 ответов

 полезно.

ли в CUDA макрос компилятора #define (nvcc), который я могу использовать? (Как _WIN32 для Windows и т. Д.) Мне нужно это для кода заголовка, который будет общим для компиляторов nvcc и VC ++. Я знаю, что могу пойти дальше и определить свой ...

1 ответ

Будьте осторожны, не смешивая целевые архитектуры x86 и x64 и lib-s. Библиотеки x64, созданные вашими неосновными проектами, должны иметь другое имя или помещаться в другую папку. Кроме того, не забудьте указать --machine 64 вместо --machine 32 для nvcc.

сках ответа на мою проблему я видел несколько постов на форумах и в блогах, посвященных теме «Как настроить, скомпилировать, связать и запустить проект CUDA в VIsual Studio 2008». (Я пытался дать ссылки, но мне не разрешено, как новый постер: ...

ТОП публикаций

1 ответ

Matlab Convolution с использованием GPU

Я попробовал функцию свертки matlab conv2 convn с gpuArray. Например, convn (gpuArray.rand (100,100,10, 'single'), gpuArray.rand (5, 'single') и сравнение его с версией для процессора convn (rand (100,100,10), rand (5)). К сожалению, версия gpu ...

3 ответа

Я получил дополнительную информацию от

ю, что устройства до архитектуры Fermi имели 8 SP в одном мультипроцессоре. То же самое в архитектуре Ферми?

1 ответ

Спасибо за разъяснения. Да, я сделал то же самое вчера. Установил ту же версию CUDA отдельно, также cuDNN и установил путь для CUDA HOME, и это сработало. Но требовался ли cuDNN?

ановил Pytorch через Конда с CUDA 7,5 conda install pytorch=0.3.0 cuda75 -c pytorch >>> import torch >>> torch.cuda.is_available() TrueЯ не делал никаких других установок для CUDA, кроме этого, так как похоже, что Pytorch поставляется с ...

1 ответ

L1 от других SM будет согласован с данными, хранящимися? Или вам все еще нужно указать глобальную загрузку области (L1-не кешируемый)?

смотрел много сообщений на форуме и документацию NVIDIA, но я не мог понять, что__threadfence() делает и как его использовать. Может ли кто-нибудь объяснить, какова цель этого внутреннего?

2 ответа

Выполнение атомарных операций на разделяемой памяти

Как выполняются атомарные операции, когда адрес, который им предоставляется, находится в блочной общей памяти? Во время атомарной операции он приостанавливает доступ к одному и тому же банку совместно используемой памяти другими потоками внутри ...

2 ответа

docs.nvidia.com/cuda/cuda-math-api/...

ного гуглю, но сейчас мне неясно, могут ли некоторые графические процессоры, запрограммированные с CUDA, использовать преимущества или использовать инструкции, аналогичные тем, которые есть в расширениях SSE SIMD; например, можем ли мы ...

2 ответа

В результате возникла проблема со способом вычисления абсолютных значений комплексного числа. в библиотеке std :: complex это вычисляло расстояние вектора.

исал простую тестовую программу, в которой я делал Complex to Complex FT, и я просто сгенерировал некоторые данные 1..50 и вставил их в действительную и мнимую части для каждого индекса массива. Когда я делаю такую ​​операцию, как IFFT (FFT (A)) ...