Resultados de la búsqueda a petición "simd"

2 la respuesta

¿Puede CUDA usar extensiones SIMD?

Busco en Google un poco, pero ahora no tengo claro si algunas GPU programadas con CUDA pueden aprovechar o pueden usar instrucciones similares a las de las extensiones SSE SIMD; por ejemplo, si podemos resumir dos vectores de flotadores en doble ...

2 la respuesta

¿Por qué gcc no resuelve _mm256_loadu_pd como un solo vmovupd?

Estoy escribiendo algunas AVX code y necesito cargar desde una memoria potencialmente desalineada. Actualmente estoy cargando 4doble, por lo tanto, usaría instrucciones intrínsecas _mm256, ...

1 la respuesta

Xcode simd - problema con la matriz de traducción y rotación Ejemplo

Not solo está usando la columna principal frente a la fila principal contra-intuitiva, la documentación de Apple sobre "Trabajar con matrices" exacerba aún más la confusión por sus ejemplos de "construir" una "Matriz de traducción" y una "Matriz ...

4 la respuesta

Intel SSE: ¿Por qué `_mm_extract_ps` devuelve` int` en lugar de `float`?

Por que_mm_extract_ps devolver unint en vez de unafloat? ¿Cuál es la forma correcta de leer una solafloat desde un registro XMM en C? O mejor dicho, una forma diferente de preguntar es: ¿Qué es lo contrario de la_mm_set_ps ¿instrucción

1 la respuesta

forma eficiente de convertir índices de dispersión en índices de recopilación?

Estoy tratando de escribir una compactación de flujo (tome una matriz y elimine los elementos vacíos) con intrínsecos SIMD. Cada iteración del bucle procesa 8 elementos a la vez (ancho SIMD). Con intrínsecos SSE, puedo hacer esto de manera ...

1 la respuesta

Ejemplo de punto muerto realista en CUDA / OpenCL

Para un tutorial que estoy escribiendo, estoy buscando un ejemplo "realista" y simple de un punto muerto causado por la ignorancia de SIMT / SIMD. e me ocurrió este fragmento, que parece ser un buen ejempl Cualquier comentario sería ...

2 la respuesta

Flotadores constantes con SIMD

He intentado optimizar el código que tengo usando los intrínsecos sse de microsoft. Uno de los mayores problemas al optimizar mi código es el LHS que ocurre cada vez que quiero usar una constante. Parece que hay algo de información sobre la ...

5 la respuesta

Cómo mover 128 bits inmediatamente a los registros XMM

Ya hayuna pregunt [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] en esto, pero se cerró como "ambiguo", así que estoy abriendo uno nuevo. He encontrado la respuesta, tal vez también ayude a otros. La pregunta ...

4 la respuesta

Conversión vectorizada rápida de RGB a BGRA

n un seguimiento de algunas preguntas anteriores sobre la conversión de RGB a RGBA y ARGB a BGR, me gustaría acelerar unRGB a BGRA conversión con SSE. Supongamos una máquina de 32 bits y me gustaría utilizar intrínsecos. Tengo dificultades para ...

5 la respuesta

Optimizing Array Compaction

Digamos que tengo una matrizk = [1 2 0 0 5 4 0] Puedo calcular una máscara de la siguiente maneram = k > 0 = [1 1 0 0 1 1 0] Utilizando solo la máscara my las siguientes operaciones Desplazar izquierda / derecha Y / O Agregar / Restar / ...