Функция ввода использует слишком много общих данных (0x8020 байт + 0x10 байт системы, 0x4000 макс.) - ошибка CUDA

Я использую Tesla C2050, которая имеет вычислительные возможности 2.0 и имеет общую память48KB, Но когда я пытаюсь использовать эту общую памятьnvcc компилятор выдает мне следующую ошибку

Entry function '_Z4SAT3PhPdii' uses too much shared data (0x8020 bytes + 0x10 bytes system, 0x4000 max)

Мой SAT1 - наивная реализация алгоритма сканирования, и потому я работаю с изображениями размером порядка4096x2160 Я должен использовать двойной, чтобы рассчитать совокупную сумму. ХотяTesla C2050 не поддерживает double, но, тем не менее, выполняет эту задачу, понижая ее до значения float. Но для ширины изображения 4096 размер разделяемой памяти оказывается больше 16 КБ, но он находится в пределах 48 КБ.

Кто-нибудь может помочь мне понять, что здесь происходит. Я использую инструментарий CUDA 3.0

Ответы на вопрос(2)

Ваш ответ на вопрос