Carregar ubit8_t de 8 bits como uint32_t?

meu projeto de processamento de imagens funciona com imagens em escala de cinza. Eu tenho a plataforma do processador ARM Cortex-A8. Eu quero fazer uso do NEON.

Tenho uma imagem em escala de cinza (considere o exemplo abaixo) e, no meu alogoritmo, tenho que adicionar apenas as colunas.

Como posso carregarquatro valores de pixel de 8 bits em paralelo, que sãouint8_t, Comoquatro uint32_t em um dos registros NEON de 128 bits? Que intrínseco eu tenho que usar para fazer isso?

Quero dizer:

Devo carregá-los como 32 bits, porque se você olhar com cuidado, o momento em que faço 255 + 255 é 512, que não pode ser mantido em um registro de 8 bits.

por exemplo.

255 255 255 255 ......... (640 pixels)
255 255 255 255
255 255 255 255
255 255 255 255
.
.
.
.
.
(480 pixels) 

questionAnswers(5)

yourAnswerToTheQuestion