Resultados de la búsqueda a petición "sse"
Implementación del filtro C ++ SSE
Intenté usar SSE para hacer operación de 4 píxeles. Tengo problemas para cargar los datos de la imagen a __m128. Los datos de mi imagen son un búfer de carac...
Suma de prefijo paralelo (acumulativa) con SSE
Estoy buscando algunos consejos sobre cómo hacer una suma de prefijo paralelo con SSE. Estoy interesado en hacer esto en una serie de ints, flotadores o dobl...
Evitar retrasos al cambiar de dominio de ejecución.
Estoy tratando de entender posibles retrasos de desvío al cambiar dominios de unidades de ejecución.Por ejemplo, las siguientes dos líneas de código dan exac...
tipo de vector ampliado personalizado: por ejemplo, float4 b = v.xxyz;
OpenCL, GCC y Clang tienen un vector de tipo convinenteextensiones.Una de las características que más me gustan es la posibilidad de hacer un swizzle como este:
¿La carga SSE no alineada intrínseca es más lenta que la carga alineada intrínseca en las CPU Intel x64_64?
Estoy considerando cambiar algunos códigos de código de alto rendimiento que actualmente requieren matrices alineadas de 16 bytes y usos
Técnicas comunes de SIMD
¿Dónde puedo encontrar información sobre trucos SIMD comunes? Tengo un conjunto de instrucciones y sé cómo escribir código SIMD no complicado, pero sé que SI...
¿Cuál es el significado de accesos de memoria "no temporales" en x86
Esta es una pregunta de bajo nivel. En el ensamblaje x86 hay dos instrucciones SSE: MOVDQA xmmi, m128 y MOVNTDQA xmmi, m128 El Manual del desarrollador de software IA-32 dice que elNuevo Testamento en MOVNTDQA significaNo temporal, y que de ...
NEON, SSE y cargas intercaladas vs barajaduras
Estoy tratando de entender el comentario hecho por "Iwillnotexist Idonotexist" enOptimización SIMD de cvtColor usando ARM NEON intrinsics [https://stackoverflow.com/q/24977272]: ... ¿por qué no utiliza los intrínsecos ARM NEON que se asignan a ...
¿Dónde está VPERMB en AVX2?
AVX2 tiene muchas cosas buenas. Por ejemplo, tiene muchas instrucciones que son estrictamente más poderosas que sus precursores. TomarVPERMD [http://www.felixcloutier.com/x86/VPERMD.html]: le permite transmitir / mezclar / permutar de manera ...