Implementación del filtro C ++ SSE

Intenté usar SSE para hacer operación de 4 píxeles. Tengo problemas para cargar los datos de la imagen a __m128. Los datos de mi imagen son un búfer de caracteres. Digamos que mi imagen es 1024 x1024. Mi filtro es de 16x16.

__m128 IMG_VALUES, FIL_VALUES, NEW_VALUES;
//ok:
IMG_VALUES=_mm_load_ps(&pInput[0]);
//hang below:
IMG_VALUES=_mm_load_ps(&pInput[1]);

No sé cómo manejar el índice 1,2,3 ... gracias.

Respuestas a la pregunta(1)

Su respuesta a la pregunta