Resultados de la búsqueda a petición "sse"
forma eficiente de convertir índices de dispersión en índices de recopilación?
Estoy tratando de escribir una compactación de flujo (tome una matriz y elimine los elementos vacíos) con intrínsecos SIMD. Cada iteración del bucle procesa 8 elementos a la vez (ancho SIMD). Con intrínsecos SSE, puedo hacer esto de manera ...
Flotadores constantes con SIMD
He intentado optimizar el código que tengo usando los intrínsecos sse de microsoft. Uno de los mayores problemas al optimizar mi código es el LHS que ocurre cada vez que quiero usar una constante. Parece que hay algo de información sobre la ...
Cómo mover 128 bits inmediatamente a los registros XMM
Ya hayuna pregunt [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] en esto, pero se cerró como "ambiguo", así que estoy abriendo uno nuevo. He encontrado la respuesta, tal vez también ayude a otros. La pregunta ...
SSE vectorización de la función matemática 'pow' gcc
Estaba tratando de vectorizar un bucle que contiene el uso de la función 'pow' en la biblioteca matemática. Sé que el compilador de Intel admite el uso de 'pow' para instrucciones sse, pero parece que no puedo ejecutarlo con gcc (creo). Este es ...
a forma más rápida de hacer una suma de vector flotante horizontal en x86
Tiene un vector de tres (o cuatro) flotadores. ¿Cuál es la forma más rápida de sumarlos? ¿SSE (movaps, shuffle, add, movd) siempre más rápido que x87? ¿Vale la pena las instrucciones de agregar horizontalmente en SSE4.2? ¿Cuál es el costo de ...
Conversión vectorizada rápida de RGB a BGRA
n un seguimiento de algunas preguntas anteriores sobre la conversión de RGB a RGBA y ARGB a BGR, me gustaría acelerar unRGB a BGRA conversión con SSE. Supongamos una máquina de 32 bits y me gustaría utilizar intrínsecos. Tengo dificultades para ...
Utilizando instrucciones de CPU AVX: bajo rendimiento sin "/ arch: AVX"
Mi código C ++ usa SSE y ahora quiero mejorarlo para que sea compatible con AVX cuando esté disponible. Así que detecto cuando AVX está disponible y llamo a una función que usa comandos AVX. Uso Win7 SP1 + VS2010 SP1 y una CPU con AVX. Para ...
Optimizing Array Compaction
Digamos que tengo una matrizk = [1 2 0 0 5 4 0] Puedo calcular una máscara de la siguiente maneram = k > 0 = [1 1 0 0 1 1 0] Utilizando solo la máscara my las siguientes operaciones Desplazar izquierda / derecha Y / O Agregar / Restar / ...
¿Es una variable __m128i cero?
¿Cómo pruebo si un__m128i variable tiene algún valor distinto de cero en los procesadores SSE-2 y anteriores?
SSE multiplicación 16 x uint8_t
Quiero multiplicar con SSE4 a__m128i objeto con 16 enteros de 8 bits sin signo, pero solo pude encontrar un intrínseco para multiplicar enteros de 16 bits. ¿No hay nada como_mm_mult_epi8?