Seleção mediana no kernel CUDA

Eu preciso calcular a mediana de uma matriz de tamanho p dentro de um kernel CUDA (no meu caso, p é pequeno, por exemplo, p = 10). Eu estou usando um algoritmo O (p ^ 2) por sua simplicidade, mas ao custo do desempenho de tempo.

Existe uma "função" para encontrar a mediana de forma eficiente que eu possa chamar dentro de um kernel CUDA?

Eu sei que eu poderia implementar um algoritmo de seleção, mas estou procurando uma função e / ou código testado.

Obrigado!

questionAnswers(2)

yourAnswerToTheQuestion