обсуждает размещение. Большинство инструкций имеют задержку 22 цикла и занимают SM от 1 до 2 циклов. В руководстве есть несколько таблиц. Это означает, что вам нужно от 11 до 22 одновременных деформаций на SM для насыщения арифметической единицы.
шелРуководство по программированию Cuda но все еще не ясно, уступит ли варп в пользу другого готового к исполнению варпа? Любое объяснение или указатель, пожалуйста? Если да, то в каких условиях происходит деформация?