Resultados de la búsqueda a petición "sse"

Me gustaría intentar escribir una implementación atoi usando instrucciones SIMD, para incluir enRapidJSON [http://rapidjson.org/](una biblioteca de lector / escritor C ++ JSON). Actualmente tiene algunas optimizaciones SSE2 y SSE4.2 en otros ...

c simd c++avx

2 la respuesta

Los índices de bytes distintos de cero de un registro SSE / AVX

Si el valor de un registro SSE / AVX es tal que todos sus bytes son 0 o 1, ¿hay alguna manera de obtener eficientemente los índices de todos los elementos distintos de cero? Por ejemplo, si el valor xmm es | r0 = 0 | r1 = 1 | r2 = 0 | r3 = 1 | ...

x86-64 sse2 c assembly

1 la respuesta

Instrucción SSE MOVSD (extendido: operaciones escalares y vectoriales de punto flotante en x86, x86-64)

De alguna manera estoy confundido por las instrucciones de montaje MOVSD. Escribí un código numérico que computaba la multiplicación de matrices, simplemente usando el código C ordinario sin intrínsecos SSE. Ni siquiera incluyo el archivo de ...

sum matrix avx c++

1 la respuesta

La forma más eficiente de obtener un m256 de sumas horizontales de 8 vectores m256 de origen

Sé sumar uno__m256 para obtener un solo valor sumado. Sin embargo, tengo 8 vectores como Entrada 1: a[0], a[1], a[2], a[3], a[4], a[5], a[6], a[7], ....., ....., 8: h[0], h[1], h[2], h[3], h[4], a[5], a[6], ...

c linux x86-64 memory-alignment

1 la respuesta

SSE: carga y almacén sin alinear que cruza el límite de la página

Leí en alguna parte que antes de realizar una carga no alineada o almacenar junto al límite de la página (por ejemplo, usando_mm_loadu_si128 / _mm_storeu_si128 intrínsecos), el código primero debe verificar si todo el vector (en este caso, 16 ...

performance intrinsics x86 micro-optimization

1 la respuesta

latency vs throughput en intel intrinsics

Creo que tengo una comprensión decente de la diferencia entre latencia y rendimiento, en general. Sin embargo, las implicaciones de la latencia en el rendimiento de la instrucción no me resultan claras para Intel Intrinsics, particularmente ...

c simd avx c++

3 la respuesta

Existen versiones SIMD más antiguas disponibles cuando se utilizan las más nuevas?

Cuando puedo usar SSE3 o AVX, ¿están disponibles versiones SSE anteriores como SSE2 o MMX? - ¿o todavía necesito verificarlos por separado?

c++x86 simd

1 la respuesta

¿Cómo puedo usar las instrucciones SVML [duplicar]

Esta pregunta ya tiene una respuesta aquí: Error de C ++: "_mm_sin_ps" no se declaró en este ámbito [/questions/31978592/c-error-mm-sin-ps-was-not-declared-in-this-scope] 3 respuestas ¿Dónde está intrínseco '_mm256_pow_ps' de ...

c++compilation

1 la respuesta

inlining falló en la llamada a always_inline '__m128i _mm_cvtepu8_epi32 (__ m128i)': la opción específica de destino no coincide _mm_cvtepu8_epi32 (m128i X) [duplicado]

Esta pregunta ya tiene una respuesta aquí: inlining falló en la llamada a always_inline ‘_mm_mullo_epi32’: la opción específica de destino no ...

assembly

4 la respuesta

Carga flotantes constantes en registros SSE

Estoy tratando de encontrar una manera eficiente de cargar flotantes constantes de tiempo de compilación en registros SSE (2/3). He intentado hacer un código simple como este, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.0f }; ¡pero eso genera 4 ...

Página 14 de 17

12 131415 16

Resultados de la búsqueda a petición "sse"

¿Cómo implementar atoi usando SIMD?

Los índices de bytes distintos de cero de un registro SSE / AVX

Instrucción SSE MOVSD (extendido: operaciones escalares y vectoriales de punto flotante en x86, x86-64)

Etiquetas Populares

La forma más eficiente de obtener un m256 de sumas horizontales de 8 vectores m256 de origen

SSE: carga y almacén sin alinear que cruza el límite de la página

latency vs throughput en intel intrinsics

Existen versiones SIMD más antiguas disponibles cuando se utilizan las más nuevas?

¿Cómo puedo usar las instrucciones SVML [duplicar]

inlining falló en la llamada a always_inline '__m128i _mm_cvtepu8_epi32 (__ m128i)': la opción específica de destino no coincide _mm_cvtepu8_epi32 (m128i X) [duplicado]

Carga flotantes constantes en registros SSE

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "sse"

Etiquetas Populares