Resultados de la búsqueda a petición "sse"

2 la respuesta

¿Cómo implementar atoi usando SIMD?

Me gustaría intentar escribir una implementación atoi usando instrucciones SIMD, para incluir enRapidJSON [http://rapidjson.org/](una biblioteca de lector / escritor C ++ JSON). Actualmente tiene algunas optimizaciones SSE2 y SSE4.2 en otros ...

2 la respuesta

Los índices de bytes distintos de cero de un registro SSE / AVX

Si el valor de un registro SSE / AVX es tal que todos sus bytes son 0 o 1, ¿hay alguna manera de obtener eficientemente los índices de todos los elementos distintos de cero? Por ejemplo, si el valor xmm es | r0 = 0 | r1 = 1 | r2 = 0 | r3 = 1 | ...

1 la respuesta

Instrucción SSE MOVSD (extendido: operaciones escalares y vectoriales de punto flotante en x86, x86-64)

De alguna manera estoy confundido por las instrucciones de montaje MOVSD. Escribí un código numérico que computaba la multiplicación de matrices, simplemente usando el código C ordinario sin intrínsecos SSE. Ni siquiera incluyo el archivo de ...

1 la respuesta

La forma más eficiente de obtener un __m256 de sumas horizontales de 8 vectores __m256 de origen

Sé sumar uno__m256 para obtener un solo valor sumado. Sin embargo, tengo 8 vectores como Entrada 1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7], ....., ....., 8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], ...

1 la respuesta

SSE: carga y almacén sin alinear que cruza el límite de la página

Leí en alguna parte que antes de realizar una carga no alineada o almacenar junto al límite de la página (por ejemplo, usando_mm_loadu_si128 / _mm_storeu_si128 intrínsecos), el código primero debe verificar si todo el vector (en este caso, 16 ...

1 la respuesta

latency vs throughput en intel intrinsics

Creo que tengo una comprensión decente de la diferencia entre latencia y rendimiento, en general. Sin embargo, las implicaciones de la latencia en el rendimiento de la instrucción no me resultan claras para Intel Intrinsics, particularmente ...

3 la respuesta

Existen versiones SIMD más antiguas disponibles cuando se utilizan las más nuevas?

Cuando puedo usar SSE3 o AVX, ¿están disponibles versiones SSE anteriores como SSE2 o MMX? - ¿o todavía necesito verificarlos por separado?

1 la respuesta

¿Cómo puedo usar las instrucciones SVML [duplicar]

Esta pregunta ya tiene una respuesta aquí: Error de C ++: "_mm_sin_ps" no se declaró en este ámbito [/questions/31978592/c-error-mm-sin-ps-was-not-declared-in-this-scope] 3 respuestas ¿Dónde está intrínseco '_mm256_pow_ps' de ...

1 la respuesta

inlining falló en la llamada a always_inline '__m128i _mm_cvtepu8_epi32 (__ m128i)': la opción específica de destino no coincide _mm_cvtepu8_epi32 (__m128i __X) [duplicado]

Esta pregunta ya tiene una respuesta aquí: inlining falló en la llamada a always_inline ‘_mm_mullo_epi32’: la opción específica de destino no ...

4 la respuesta

Carga flotantes constantes en registros SSE

Estoy tratando de encontrar una manera eficiente de cargar flotantes constantes de tiempo de compilación en registros SSE (2/3). He intentado hacer un código simple como este, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.0f }; ¡pero eso genera 4 ...