Resultados de la búsqueda a petición "simd"
Xcode simd - problema con la matriz de traducción y rotación Ejemplo
Not solo está usando la columna principal frente a la fila principal contra-intuitiva, la documentación de Apple sobre "Trabajar con matrices" exacerba aún más la confusión por sus ejemplos de "construir" una "Matriz de traducción" y una "Matriz ...
¿Cómo convierto _m128i en un int sin firmar con SSE?
He realizado una función para posterizar imágenes. // =( #define ARGB_COLOR(a, r, g, b) (((a) << 24) | ((r) << 16) | ((g) << 8) | (b)) inline UINT PosterizeColor(const UINT &color, const float &nColors) { __m128 clr = _mm_cvtepi32_ps( ...
¿Cómo implementar atoi usando SIMD?
Me gustaría intentar escribir una implementación atoi usando instrucciones SIMD, para incluir enRapidJSON [http://rapidjson.org/](una biblioteca de lector / escritor C ++ JSON). Actualmente tiene algunas optimizaciones SSE2 y SSE4.2 en otros ...
¿Cómo llevar a cabo la conversión de uint32 / float con SSE?
En SSE hay una función_mm_cvtepi32_ps(__m128i input) que toma el vector de entrada de enteros con signo de 32 bits de ancho (int32_t) y los convierte enfloats. Ahora, quiero interpretar los enteros de entrada como no firmados. Pero no ...
SSE2: función de registro de doble precisión
Necesito la implementación de código abierto (sin restricción de licencia) de la función de registro, algo con firma __m128d _mm_log_pd(__m128d);Está disponible en Intel Short Vector Math Library (parte de ICC), pero ICC no es gratuito ni de ...
Suma de prefijo SIMD en la CPU de Intel
Necesito implementar un algoritmo de suma de prefijo y lo necesitaré para que sea lo más rápido posible. Ex:
CUDA: evitar la ejecución en serie en la divergencia de rama
Suponga que un kernel CUDA ejecutado por una sola deformación (por simplicidad) alcanza unif-else declaración, donde 20 de los hilos dentro de la urdimbre satisfacencondition y 32-20 = 12 hilos no: if (condition){ statement1; // executed by 20 ...
transposición para 8 registros de elementos de 16 bits en SSE2 / SSSE3
(Soy un novato en SSE / asm, disculpas si esto es obvio o redundante) ¿Existe una mejor manera de transponer 8 registros SSE que contengan valores de 16 bits que realizar 24 desbloqueos [lh] ps y 8/16 + barajaduras y usar 8 registros ...