Implementacja filtru SSE C ++

Próbowałem użyć SSE, aby wykonać operację 4 pikseli. Mam problem z wczytaniem danych obrazu do __m128. Moje dane obrazu to bufor char. Powiedzmy, że mój obraz to 1024 x 1024. Mój filtr to 16x16.

__m128 IMG_VALUES, FIL_VALUES, NEW_VALUES;
//ok:
IMG_VALUES=_mm_load_ps(&pInput[0]);
//hang below:
IMG_VALUES=_mm_load_ps(&pInput[1]);

Nie wiem jak poradzić sobie z indeksem 1,2,3 ... dzięki.

questionAnswers(1)

yourAnswerToTheQuestion