Definir o máximo de recursos CUDA

Gostaria de saber se é possível definir os recursos máximos de GPU de um aplicativo CUDA? Por exemplo, se eu tivesse uma GPU de 4 GB, mas desejasse que um determinado aplicativo pudesse acessar apenas 2 GB e falhar se tentar alocar mais.

Idealmente, isso pode ser definido no nível do processo ou no nível do contexto CUDA.