Como otimizar as estatísticas do histograma com intrínsecos a neon?

Eu quero otimizar o código estatístico do histograma com intrínsecos de neon. Mas não obtive sucesso. Aqui está o código c:

#define NUM (7*1024*1024)
uint8 src_data[NUM];
uint32 histogram_result[256] = {0};
for (int i = 0; i < NUM; i++)
{
    histogram_result[src_data[i]]++;
}

A estatística Historam é mais parecida com o processamento serial.É difícil otimizar com os intrínsecos de néon.Alguém sabe como otimizar? Agradecemos antecipadamente.

questionAnswers(1)

yourAnswerToTheQuestion