Selección de la mediana en el núcleo de CUDA
Necesito calcular la mediana de una matriz de tamaño p dentro de un núcleo CUDA (en mi caso, p es pequeña, por ejemplo, p = 10). Estoy usando un algoritmo O (p ^ 2) por su simplicidad, pero a costa del rendimiento del tiempo.
¿Existe una "función" para encontrar la mediana de manera eficiente a la que puedo llamar dentro de un núcleo CUDA?
Sé que podría implementar un algoritmo de selección, pero estoy buscando una función y / o un código probado.
¡Gracias!