Resultados de la búsqueda a petición "simd"

1 la respuesta

Xcode simd - problema con la matriz de traducción y rotación Ejemplo

Not solo está usando la columna principal frente a la fila principal contra-intuitiva, la documentación de Apple sobre "Trabajar con matrices" exacerba aún más la confusión por sus ejemplos de "construir" una "Matriz de traducción" y una "Matriz ...

2 la respuesta

¿Cuál es la diferencia entre vextracti128 y vextractf128?

4 la respuesta

¿Cómo convierto _m128i en un int sin firmar con SSE?

He realizado una función para posterizar imágenes. // =( #define ARGB_COLOR(a, r, g, b) (((a) << 24) | ((r) << 16) | ((g) << 8) | (b)) inline UINT PosterizeColor(const UINT &color, const float &nColors) { __m128 clr = _mm_cvtepi32_ps( ...

2 la respuesta

¿Cómo implementar atoi usando SIMD?

Me gustaría intentar escribir una implementación atoi usando instrucciones SIMD, para incluir enRapidJSON [http://rapidjson.org/](una biblioteca de lector / escritor C ++ JSON). Actualmente tiene algunas optimizaciones SSE2 y SSE4.2 en otros ...

3 la respuesta

¿Cómo llevar a cabo la conversión de uint32 / float con SSE?

En SSE hay una función_mm_cvtepi32_ps(__m128i input) que toma el vector de entrada de enteros con signo de 32 bits de ancho (int32_t) y los convierte enfloats. Ahora, quiero interpretar los enteros de entrada como no firmados. Pero no ...

5 la respuesta

SSE2: función de registro de doble precisión

Necesito la implementación de código abierto (sin restricción de licencia) de la función de registro, algo con firma __m128d _mm_log_pd(__m128d);Está disponible en Intel Short Vector Math Library (parte de ICC), pero ICC no es gratuito ni de ...

4 la respuesta

Suma de prefijo SIMD en la CPU de Intel

Necesito implementar un algoritmo de suma de prefijo y lo necesitaré para que sea lo más rápido posible. Ex:

1 la respuesta

CUDA: evitar la ejecución en serie en la divergencia de rama

Suponga que un kernel CUDA ejecutado por una sola deformación (por simplicidad) alcanza unif-else declaración, donde 20 de los hilos dentro de la urdimbre satisfacencondition y 32-20 = 12 hilos no: if (condition){ statement1; // executed by 20 ...

5 la respuesta

Archivos de encabezado para x86 SIMD intrinsics

3 la respuesta

transposición para 8 registros de elementos de 16 bits en SSE2 / SSSE3

(Soy un novato en SSE / asm, disculpas si esto es obvio o redundante) ¿Existe una mejor manera de transponer 8 registros SSE que contengan valores de 16 bits que realizar 24 desbloqueos [lh] ps y 8/16 + barajaduras y usar 8 registros ...