Compilación de código que contiene un paralelismo dinámico falla

Estoy haciendo programación de paralelismo dinámico utilizando CUDA 5.5 y una NVDIA GeForce GTX 780 cuya capacidad de cómputo es 3.5. Estoy llamando a una función de kernel dentro de una función de kernel pero me está dando un error:

error: llamar a una función __global__ ("kernel_6") desde una función __global__ ("kernel_5") solo está permitido en la arquitectura compute_35 o superior

¿Qué estoy haciendo mal?

Respuestas a la pregunta(3)

Su respuesta a la pregunta