Reducción de la suma de bytes sin signo sin desbordamiento, utilizando SSE2 en Intel

Estoy tratando de encontrar una reducción total de 32 elementos (cada uno de los datos de 1 byte) en un procesador Intel i3. Hice esto:

s=0; 
for (i=0; i<32; i++)
{
    s = s + a[i];
}  

Sin embargo, lleva más tiempo, ya que mi aplicación es una aplicación en tiempo real que requiere mucho menos tiempo.Tenga en cuenta que la suma final podría ser más de 255.

¿Hay alguna manera de implementar esto usando instrucciones SIMD SSE2 de bajo nivel? Desafortunadamente nunca he usado SSE. Intenté buscar la función sse2 para este propósito, pero tampoco está disponible. ¿Está (sse) garantizado para reducir el tiempo de cómputo para problemas tan pequeños?

¿¿Alguna sugerencia??

Nota: He implementado los algoritmos similares con OpenCL y CUDA y funcionó muy bien, pero solo cuando el tamaño del problema era grande. Para problemas de tamaño pequeño, el costo de los gastos generales fue mayor. No estoy seguro de cómo funciona en SSE

Respuestas a la pregunta(2)

Su respuesta a la pregunta