Resultados de la búsqueda a petición "sse"
¿Cómo implementar atoi usando SIMD?
Me gustaría intentar escribir una implementación atoi usando instrucciones SIMD, para incluir enRapidJSON [http://rapidjson.org/](una biblioteca de lector / escritor C ++ JSON). Actualmente tiene algunas optimizaciones SSE2 y SSE4.2 en otros ...
Los índices de bytes distintos de cero de un registro SSE / AVX
Si el valor de un registro SSE / AVX es tal que todos sus bytes son 0 o 1, ¿hay alguna manera de obtener eficientemente los índices de todos los elementos distintos de cero? Por ejemplo, si el valor xmm es | r0 = 0 | r1 = 1 | r2 = 0 | r3 = 1 | ...
Instrucción SSE MOVSD (extendido: operaciones escalares y vectoriales de punto flotante en x86, x86-64)
De alguna manera estoy confundido por las instrucciones de montaje MOVSD. Escribí un código numérico que computaba la multiplicación de matrices, simplemente usando el código C ordinario sin intrínsecos SSE. Ni siquiera incluyo el archivo de ...
La forma más eficiente de obtener un __m256 de sumas horizontales de 8 vectores __m256 de origen
Sé sumar uno__m256 para obtener un solo valor sumado. Sin embargo, tengo 8 vectores como Entrada 1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7], ....., ....., 8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], ...
SSE: carga y almacén sin alinear que cruza el límite de la página
Leí en alguna parte que antes de realizar una carga no alineada o almacenar junto al límite de la página (por ejemplo, usando_mm_loadu_si128 / _mm_storeu_si128 intrínsecos), el código primero debe verificar si todo el vector (en este caso, 16 ...
latency vs throughput en intel intrinsics
Creo que tengo una comprensión decente de la diferencia entre latencia y rendimiento, en general. Sin embargo, las implicaciones de la latencia en el rendimiento de la instrucción no me resultan claras para Intel Intrinsics, particularmente ...
Existen versiones SIMD más antiguas disponibles cuando se utilizan las más nuevas?
Cuando puedo usar SSE3 o AVX, ¿están disponibles versiones SSE anteriores como SSE2 o MMX? - ¿o todavía necesito verificarlos por separado?
¿Cómo puedo usar las instrucciones SVML [duplicar]
Esta pregunta ya tiene una respuesta aquí: Error de C ++: "_mm_sin_ps" no se declaró en este ámbito [/questions/31978592/c-error-mm-sin-ps-was-not-declared-in-this-scope] 3 respuestas ¿Dónde está intrínseco '_mm256_pow_ps' de ...
inlining falló en la llamada a always_inline '__m128i _mm_cvtepu8_epi32 (__ m128i)': la opción específica de destino no coincide _mm_cvtepu8_epi32 (__m128i __X) [duplicado]
Esta pregunta ya tiene una respuesta aquí: inlining falló en la llamada a always_inline ‘_mm_mullo_epi32’: la opción específica de destino no ...
Carga flotantes constantes en registros SSE
Estoy tratando de encontrar una manera eficiente de cargar flotantes constantes de tiempo de compilación en registros SSE (2/3). He intentado hacer un código simple como este, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.0f }; ¡pero eso genera 4 ...