Cargar 8bit uint8_t como uint32_t?

mi proyecto de procesamiento de imágenes funciona con imágenes en escala de grises. Tengo la plataforma de procesador ARM Cortex-A8. Quiero hacer uso del NEON.

Tengo una imagen en escala de grises (considere el siguiente ejemplo) y en mi alogoritmo, tengo que agregar solo las columnas.

Como puedo cargarcuatro valores de píxeles de 8 bits en paralelo, que sonuint8_t, comocuatro uint32_t en uno de los registros NEON de 128 bits? ¿Qué intrínseco tengo que usar para hacer esto?

Quiero decir:

Debo cargarlos como 32 bits porque si miras detenidamente, el momento en que hago 255 + 255 es 512, que no se puede guardar en un registro de 8 bits.

p.ej.

255 255 255 255 ......... (640 pixels)
255 255 255 255
255 255 255 255
255 255 255 255
.
.
.
.
.
(480 pixels) 

Respuestas a la pregunta(5)

Su respuesta a la pregunta