Как генерировать случайные перестановки с CUDA

Какие параллельные алгоритмы я могу использовать для генерации случайных перестановок из заданного набора? Особенно полезны предложения или ссылки на документы, подходящие для CUDA.

Последовательной версией этого будет перетасовка Фишера-Йейтса.

Пример:

Пусть S = {1, 2, ..., 7} будет набором исходных индексов. Цель состоит в том, чтобы генерировать n случайных перестановок параллельно. Каждая из n перестановок содержит каждый из исходных индексов ровно один раз, например {7, 6, ..., 1}.

Ответы на вопрос(4)

Ваш ответ на вопрос