Результаты поиска по запросу "cuda"

1 ответ

CUDA Compute Capability 2.0. Глобальная модель доступа к памяти

Из CUDA Compute Capability 2.0 (Fermi) глобальный доступ к памяти работает через 768 КБ кэш-памяти второго уровня. Похоже, разработчик больше не заботится о глобальных банках памяти. Но глобальная память все еще очень медленная, поэтому важна ...

1 ответ

Cuda производительность без копий

Кто-нибудь имеет опыт анализа производительности приложений CUDA с использованием нулевой копии (ссылка здесь:Прикрепленная по умолчанию память против памяти с нулевым ...

5 ответов

Умножить прямоугольные матрицы в CUDA

В этом домашнем задании мне нужно завершить код для умножения двух прямоугольных матриц, используя CUDA C. После того, как я выполнил код, я отправил, и решение было правильным для набора данных, когда матрицы были квадратными, в то время как ...

ТОП публикаций

3 ответа

Деление чисел с плавающей запятой на GPU отличается от деления на CPU

Когда я делю два числа с плавающей запятой на GPU, результат0.196405, Когда я делю их на процессор, результат0.196404, Фактическое значение с помощью калькулятора0.196404675, Как сделать деление на GPU и CPU одинаковыми?

0 ответов

Настройка компилятора CUDA nvcc Ubuntu 12.04

Я успешно установил драйвер nvidia и инструментарий для cuda 5 (но не сэмплов) на 64-битную версию Ubuntu 12.04. Образцы не удалось установить, хотя я ранее запускал $ sudo apt-get установить freeglut3-dev build-essential libx11-dev ...

1 ответ

Будет ли cudaMalloc синхронизировать хост и устройство?

Я понимаю, что cudaMemcpy будет синхронизировать хост и устройство, но как насчет cudaMalloc или cudaFree? По сути, я хочу асинхронизировать распределение / копирование памяти и выполнение ядра на нескольких устройствах с графическим ...

1 ответ

Функциональный объект не работает должным образом

Я определил следующий объект функции: struct Predicate1 { __device__ bool operator () (const DereferencedIteratorTuple& lhs, const DereferencedIteratorTuple& rhs) { using thrust::get; //if you do <=, returns last occurence of largest element. ...

4 ответа

Каков канонический способ проверки на наличие ошибок с помощью API времени выполнения CUDA?

Просматривая ответы и комментарии на вопросы CUDA, а также вCUDA Tag Wiki [https://stackoverflow.com/tags/cuda/info]Я вижу, что часто предлагается, чтобы статус возврата каждого вызова API проверялся на наличие ошибок. Документация API содержит ...

1 ответ

cuda выравнивание 256 байт серьезно?

В «Руководстве по программированию CUDA C 5.0», стр. 73 (также здесь [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#device-memory-accesses] ) говорит: «Любой адрес переменной, находящейся в глобальной памяти или возвращенной ...

1 ответ

Линейная фильтрация текстур CUDA

В Руководстве по программированию CUDA C, Версия 5, Приложение E.2 (Линейная фильтрация) указано, что: В этом режиме фильтрациикоторый доступен только для текстур с плавающей точкой, значение, возвращаемое извлечением текстуры, равно ... Часть ...