CUDA Compute Capability 2.0. Глобальная модель доступа к памяти

Из CUDA Compute Capability 2.0 (Fermi) глобальный доступ к памяти работает через 768 КБ кэш-памяти второго уровня. Похоже, разработчик небольше не волнует глобальные банки памяти. Но глобальная память все еще очень медленная, поэтому важна правильная схема доступа. Теперь дело в том, чтобы максимально использовать / повторно использовать L2. И мой вопрос, как? Я был бы благодарен за некоторую подробную информацию, как работает L2 и как мне организовать и получить доступ к глобальной памяти, если мне нужно, например, массив из 100-200 элементов на поток.

Ответы на вопрос(1)

Ваш ответ на вопрос