Resultados de la búsqueda a petición "sse"

1 la respuesta

Implementación del filtro C ++ SSE

Intenté usar SSE para hacer operación de 4 píxeles. Tengo problemas para cargar los datos de la imagen a __m128. Los datos de mi imagen son un búfer de carac...

1 la respuesta

Suma de prefijo paralelo (acumulativa) con SSE

Estoy buscando algunos consejos sobre cómo hacer una suma de prefijo paralelo con SSE. Estoy interesado en hacer esto en una serie de ints, flotadores o dobl...

1 la respuesta

Evitar retrasos al cambiar de dominio de ejecución.

Estoy tratando de entender posibles retrasos de desvío al cambiar dominios de unidades de ejecución.Por ejemplo, las siguientes dos líneas de código dan exac...

0 la respuesta

tipo de vector ampliado personalizado: por ejemplo, float4 b = v.xxyz;

OpenCL, GCC y Clang tienen un vector de tipo convinenteextensiones.Una de las características que más me gustan es la posibilidad de hacer un swizzle como este:

4 la respuesta

¿La carga SSE no alineada intrínseca es más lenta que la carga alineada intrínseca en las CPU Intel x64_64?

Estoy considerando cambiar algunos códigos de código de alto rendimiento que actualmente requieren matrices alineadas de 16 bytes y usos

1 la respuesta

SSE42 y STTNI: PcmpEstrM es dos veces más lento que PcmpIstrM, ¿es cierto?

2 la respuesta

Técnicas comunes de SIMD

¿Dónde puedo encontrar información sobre trucos SIMD comunes? Tengo un conjunto de instrucciones y sé cómo escribir código SIMD no complicado, pero sé que SI...

3 la respuesta

¿Cuál es el significado de accesos de memoria "no temporales" en x86

Esta es una pregunta de bajo nivel. En el ensamblaje x86 hay dos instrucciones SSE: MOVDQA xmmi, m128 y MOVNTDQA xmmi, m128 El Manual del desarrollador de software IA-32 dice que elNuevo Testamento en MOVNTDQA significaNo temporal, y que de ...

1 la respuesta

NEON, SSE y cargas intercaladas vs barajaduras

Estoy tratando de entender el comentario hecho por "Iwillnotexist Idonotexist" enOptimización SIMD de cvtColor usando ARM NEON intrinsics [https://stackoverflow.com/q/24977272]: ... ¿por qué no utiliza los intrínsecos ARM NEON que se asignan a ...

1 la respuesta

¿Dónde está VPERMB en AVX2?

AVX2 tiene muchas cosas buenas. Por ejemplo, tiene muchas instrucciones que son estrictamente más poderosas que sus precursores. TomarVPERMD [http://www.felixcloutier.com/x86/VPERMD.html]: le permite transmitir / mezclar / permutar de manera ...