Implementação do filtro C ++ SSE

Eu tentei usar o SSE para fazer a operação de 4 pixels. Eu tenho problema em carregar os dados da imagem para __m128. Meus dados de imagem são um buffer de caracteres. Vamos dizer que minha imagem é 1024 x1024. Meu filtro é 16x16.

__m128 IMG_VALUES, FIL_VALUES, NEW_VALUES;
//ok:
IMG_VALUES=_mm_load_ps(&pInput[0]);
//hang below:
IMG_VALUES=_mm_load_ps(&pInput[1]);

Eu não sei como lidar com o índice 1,2,3 ... obrigado.

questionAnswers(1)

yourAnswerToTheQuestion