Resultados de la búsqueda a petición "sse"
a forma más eficaz de restar una matriz de otra
Tengo el siguiente código, que es el cuello de botella en una parte de mi aplicación. Todo lo que hago es restar Array de otro. Ambas matrices tienen más de 100000 elementos. Estoy tratando de encontrar una manera de hacer esto ...
Cargar un xmm desde GP regs
Digamos que tiene valores enrax yrdx desea cargar en unaxmm registrarse. Una forma sería: movq xmm0, rax pinsrq xmm0, rdx, 1 ¡Aunque es bastante lento! ¿Hay una mejor manera?
Utilizando registros ymm como una ubicación de almacenamiento "similar a la memoria"
Considere el siguiente bucle en x86: ; on entry, rdi has the number of iterations .top: ; some magic happens here to calculate a result in rax mov [array + rdi * 8], rax ; store result in output array dec rdi jnz .top Es sencillo: algo calcula ...
Constexpr y SSE intrínsecos
os compiladores @Most C ++ admiten instrucciones SIMD (SSE / AVX) con elementos intrínsecos como _mm_cmpeq_epi32Mi problema con esto es que esta función no está marcada comoconstexpr, aunque "semánticamente" no hay razón para que esta función ...
Cómo convertir eficientemente un mapa de bits de 8 bits a una matriz de enteros 0/1 con x86 SIMD
Quiero convertir un entero de 8 bits en una matriz de tamaño 8 con cada valor que contenga el valor de bit de un entero. Por ejemplo: tengoint8_t x = 8; Quiero convertir esto aint8_t array_x = {0,0,0,0,1,0,0,0}; Esto tiene que hacerse de ...
¿Puede CUDA usar extensiones SIMD?
Busco en Google un poco, pero ahora no tengo claro si algunas GPU programadas con CUDA pueden aprovechar o pueden usar instrucciones similares a las de las extensiones SSE SIMD; por ejemplo, si podemos resumir dos vectores de flotadores en doble ...
Intel SSE: ¿Por qué `_mm_extract_ps` devuelve` int` en lugar de `float`?
Por que_mm_extract_ps devolver unint en vez de unafloat? ¿Cuál es la forma correcta de leer una solafloat desde un registro XMM en C? O mejor dicho, una forma diferente de preguntar es: ¿Qué es lo contrario de la_mm_set_ps ¿instrucción
Utilizando instrucciones SSE
Tengo un bucle escrito en C ++ que se ejecuta para cada elemento de una gran matriz entera. Dentro del bucle, enmascaro algunos bits del entero y luego encuentro los valores mínimo y máximo. Escuché que si uso las instrucciones SSE para estas ...
Filtro lineal con intrínsecos SSE4.1
stoy tratando de descubrir una función de filtrado bilineal razonablemente rápida solo para una muestra filtrada a la vez como un ejercicio para acostumbrarme al uso de intrínsecos, hasta SSE41 está bien. Hasta ahora tengo lo siguiente: inline ...
¿Cómo verificar si una CPU admite el conjunto de instrucciones SSE3?
Es válido el siguiente código para verificar si una CPU admite el conjunto de instrucciones SSE3? Utilizando laIsProcessorFeaturePresent()a función @ aparentemente no funciona en Windows XP (verhttp: //msdn.microsoft.com/en-us/library/ms724482 ...