Результаты поиска по запросу "cuda"

0 ответов

 выполнить параллельно.

мация - 32 потока. 32 потока выполняются параллельно в многопроцессорном режиме? Если 32 потока не выполняются параллельно, тогда в варпе нет условия гонки. Я получил это сомнение после просмотра некоторых примеров.

5 ответов

, Техника должна быть похожа на cudppSort тоже.

ли сортировать объекты с помощью библиотеки Thrust? У меня есть следующая структура: struct OB{ int N; Cls *C; //CLS is another struct. }Можно ли использовать тягу для сортировки массива OB по N? Можете ли вы привести простой ...

4 ответа

Кстати, у cudpp есть сортировка слиянием и сортировка по методу radix.

я есть массив struct, и мне нужно отсортировать этот массив в соответствии со свойством struct (N). Объект выглядит так: struct OBJ { int N; //sort array of OBJ with respect to N OB *c; //OB is another struct }Размер массива небольшой, около 512 ...

ТОП публикаций

2 ответа

если newsize <oldsize, цикл должен быть до новизны, верно? также, старый может быть нулевым.

ю что можно использоватьmalloc внутри ядра для выделения памяти в глобальной памяти графического процессора. Можно ли использоватьrealloc?

1 ответ

все правильное утверждение теперь гласит:

я есть два набора A & B из 20 и 10 целых чисел соответственно. B является подмножеством A. Мне нужно найти бесплатный набор B. Я использую thrust :: set_difference, чтобы найти разницу в множестве, однако он не может быть скомпилирован с ...

1 ответ

Потому что графические процессоры GeForce не поддерживают режим TCC. Это дизайн продукта. Вы ничего не можете с этим поделать.

PU - GeForce MX150, паскальская архитектура, CC. 6.1, CUDA 9.1, windows 10. Хотя мой графический процессор паскаль, но кооперативные группы не работают. Я хочу использовать его для межблочной синхронизации. Я обнаружил, что мой режим TCC не ...

2 ответа

cublasgeam был добавлен в CUBLAS5.0. Он вычисляет взвешенную сумму 2 необязательно транспонированных матриц

аюсь использовать CUBLAS для суммирования двух больших матриц неизвестного размера. Мне нужен полностью оптимизированный код (если возможно), поэтому я решил не переписывать код сложения матрицы (простой), а использовать CUBLAS, в частности ...

5 ответов

Графический процессор только когда-либо планирует столько блоков, сколько поместится в доступном регистре и общей памяти. Если для блока требуется 4 КБ общей памяти, то для каждого SM будет активным не более 4 блоков, если SM имеет 16 КБ общей памяти. Полагаю, я должен был сказать, что ваш первый абзац "в основном бессмыслица", потому что да, первые 10 слов верны, но после этого они превращаются в фантазии.

аюсь выделить общую память, используя постоянный параметр, но получаю ошибку. мое ядро ​​выглядит так: __global__ void Kernel(const int count) { __shared__ int a[count]; }и я получаю сообщение об ошибке ошибка: выражение должно иметь постоянное ...

4 ответа

Эшвин: Это верно. То, что ты пытаешься сделать, не возможно. Вы должны передать размер отдельно.

ичок в Thrust. Я вижу, что все презентации и примеры Thrust показывают только код хоста. Я хотел бы знать, могу ли я передать device_vector в свое собственное ядро? Как? Если да, какие операции разрешены для него внутри кода ядра / устройства?

2 ответа

Уплотнение потока с небольшой подготовкой подойдет. Вы можете запустить поток для каждой пары ключ-значение, проверить, равна ли предыдущая пара ключ-значение, если нет: установить флаг (int = 1) в отдельном массиве того же размера, что и эти пары. Все остальные флаги остаются неустановленными (int = 0). Затем выполните потоковое сжатие пар ключ-значение на основе массива флагов.

я есть пара массивов одинакового размера, я буду называть их ключами и значениями. Например: K: V 1: 99 1: 100 1: 100 1: 100 1: 103 2: 103 2: 105 3: 45 3: 67Ключи отсортированы и соответствующие значенияс каждым ключом отсортированы. Как ...