O que é um bom algoritmo de classificação na CUDA?

Eu tenho uma matriz de struct e preciso classificá-la de acordo com uma propriedade da estrutura (N). O objeto fica assim:

 struct OBJ
 { 
   int N; //sort array of OBJ with respect to N
   OB *c; //OB is another struct
 } 

O tamanho da matriz é pequeno, cerca de 512 elementos, mas o tamanho de cada elemento é grande, portanto, não posso copiar a matriz para a memória compartilhad

Qual é a maneira mais simples e "boa" de classificar esse array? Não preciso de um algoritmo complexo que exija muito tempo para implementar (já que o número de elementos na matriz é pequeno), só preciso de um algoritmo simple

Nota: Eu li alguns artigos sobre algoritmos de classificação usando GPUs, mas o ganho de velocidade desses documentos só aparece quando o tamanho da matriz é muito grande. Portanto, não tentei implementar seus algoritmos porque o tamanho da minha matriz é pequeno. Eu só preciso de uma maneira simples de classificar em paralelo minha matriz. Obrigado

questionAnswers(4)

yourAnswerToTheQuestion