Selección de la mediana en el núcleo de CUDA

Necesito calcular la mediana de una matriz de tamaño p dentro de un núcleo CUDA (en mi caso, p es pequeña, por ejemplo, p = 10). Estoy usando un algoritmo O (p ^ 2) por su simplicidad, pero a costa del rendimiento del tiempo.

¿Existe una "función" para encontrar la mediana de manera eficiente a la que puedo llamar dentro de un núcleo CUDA?

Sé que podría implementar un algoritmo de selección, pero estoy buscando una función y / o un código probado.

¡Gracias!

Respuestas a la pregunta(2)

Su respuesta a la pregunta