SSE _mm_movemask_epi8 método equivalente para ARM NEON

Eu decidi continuar a otimização de cantos rápidos e preso em_mm_movemask_epi8 Instrução SSE. Como posso reescrevê-lo para ARM Neon comuint8x16_t entrada?