Результаты поиска по запросу "gpgpu"

2 ответа

Ой. (подразумеваемые объяснения) Желание, которое было заявлено более заметно. Спасибо @talonmies.

ал писать новое приложение CUDA. Однако я попал в забавный обходной путь. Вызов первого cudaMalloc для переменной x завершается неудачно в первый раз. Однако, когда я вызываю его во второй раз, он возвращает cudaSuccess. Недавно обновленный до ...

3 ответа

 файлы, и хранить только основной файл.

аюсь скомпилировать проект CUDA, который кто-то прислал мне. Хотя этап компиляции проходит, этап компоновки не выполняется. Ниже приведен пример ошибки: Error 298 error LNK2005: "int __cdecl compare_ints(void const *,void const ...

1 ответ

Карты Quadro также могут работать в TCC, если они не подключены к монитору.

я есть программа CUDA, которая, кажется, достигает своего рода предела какого-то ресурса, но я не могу понять, что это за ресурс. Вот функция ядра: __global__ void DoCheck(float2* points, int* segmentToPolylineIndexMap, int segmentCount, int* ...

ТОП публикаций

2 ответа

Мне нравится эта идея. Я буду продолжать искать, если это подтвердится.

атривая имя счетчиков производительности в архитектуре NVIDIA Fermi (файл Compute_profiler.txt в папке doc cuda), я заметил, что для пропусков кэша L2 есть два счетчика производительности: l2_subp0_read_sector_misses ...

1 ответ

Эффект __forceinline__ в функциях CUDA C __device__

Существует много советов о том, когда использовать встроенные функции и когда избегать этого в обычном кодировании на Си. Каков эффект от__forceinline__ на CUDA C__device__ функции? Где их следует использовать и где их следует избегать?

6 ответов

Для CUDA (с использованием NVIDIA), пожалуйста, посмотрите B.4.5 Руководство по программированию Cuda от NVIDIA. Существует переменная для хранения этой информации. Вы можете запросить эту переменную во время выполнения. Для AMD я не уверен, есть ли такая переменная.

A есть концепциядеформироваться, которое определяется как максимальное количество потоков, которые могут выполнять одну и ту же инструкцию одновременно в пределах одного элемента обработки. Для NVIDIA этот размер деформации составляет 32 для всех ...

1 ответ

Я думаю, что в большинстве случаев конфликты совместно используемых банков играют основную часть повторов, затем глобальные повторы памяти, затем другие конфликты, такие как постоянные конфликты памяти, пропуски кэша команд и т. Д. К сожалению, официальной информации об этом нет.

учил информацию от CUDA Profiler. Я так растерялся, почему Replays Instruction! = Воспроизведение памяти Grobal + воспроизведение локальной памяти + воспроизведение конфликта общего банка? Смотрите следующую информацию, которую я получил от ...

2 ответа

@nbro «Сокращение» - это когда вы берете много элементов (скажем, массив длиной 10 000, от [0] до [9999]), а затем обрабатываете данные в меньшем размере. Например: вычисление «максимального» числа в массиве или значения a [0] + a [1] + a [2] + ... a [9999]. Наиболее распространенными сокращениями являются «Макс», «Мин» и «Добавить», но концепция параллельной обработки большого и большого количества данных для вывода одного числа (или, по крайней мере, меньшего числа, представляющих целое) является общий «шаблон» в параллельном программировании.

ли какие-либо исследования, сравнивающие OpenCL с производительностью OpenMP? В частности, меня интересуют накладные расходы на запуск потоков с OpenCL, например, если нужно разложить домен на очень большое количество отдельных рабочих элементов ...

1 ответ

Реализация хеш-таблицы для GPU [закрыто]

Я ищу реализацию хеш-таблицы, которую я могу использовать для кодирования CUDA. Есть ли там кто-нибудь хороший? Что-то вроде словаря Python. Я буду использовать строки в качестве моих ключей

10 ответов

OpenGL против OpenCL, что выбрать и почему?

Какие функции делают OpenCL уникальным выбором для расчетов над OpenGL с GLSL? Несмотря на связанную с графикой терминологию и непрактичные типы данных, есть ли реальное предостережение для OpenGL? Например, оценка параллельной функции может ...