Técnicas comunes de SIMD

¿Dónde puedo encontrar información sobre trucos SIMD comunes? Tengo un conjunto de instrucciones y sé cómo escribir código SIMD no complicado, pero sé que SIMD ahora es mucho más poderoso. Puede contener código sin ramificación condicional complejo.
Por ejemplo (ARMv6), la siguiente secuencia de instrucciones establece que cada byte de Rd es igual al mínimo sin signo de los bytes correspondientes de Ra y Rb:

USUB8 Rd, Ra, Rb
SEL Rd, Rb, Ra

Los enlaces a tutoriales / técnicas SIMD infrecuentes también son buenos :)ARMv6 es lo mas interesante para mi, perox86(SSE, ...) /Neón(en ARMv7) / otros también están bien.