Seleção mediana no kernel CUDA
Eu preciso calcular a mediana de uma matriz de tamanho p dentro de um kernel CUDA (no meu caso, p é pequeno, por exemplo, p = 10). Eu estou usando um algoritmo O (p ^ 2) por sua simplicidade, mas ao custo do desempenho de tempo.
Existe uma "função" para encontrar a mediana de forma eficiente que eu possa chamar dentro de um kernel CUDA?
Eu sei que eu poderia implementar um algoritmo de seleção, mas estou procurando uma função e / ou código testado.
Obrigado!