Resultados de la búsqueda a petición "sse"
¿Es posible usar SSE en c #?
Estaba leyendo una pregunta sobre la optimización del código de C # y una solución era usar c ++ con SSE. ¿Es posible hacer SSE directamente desde un programa de C #?
Cómo habilitar la autovectorización sse3 en gcc
Tengo un ciclo simple con tomas del producto de n números complejos. A medida que realizo este ciclo millones de veces, quiero que sea lo más rápido posible. Entiendo que es posible hacer esto rápidamente usando SSE3 y gcc intrínsecos, pero estoy ...
¿Qué está haciendo mi compilador? (optimizando memcpy)
Estoy compilando un poco de código usando la siguiente configuración en VC ++ 2010: / O2 / Ob2 / Oi / Ot Sin embargo, estoy teniendo problemas para entender algunas partes del ensamblaje generado, he puesto algunas preguntas en el código como ...
¿Por qué este código SSE es 6 veces más lento sin VZEROUPPER en Skylake?
He estado tratando de resolver un problema de rendimiento en una aplicación y finalmente lo reduje a un problema realmente extraño. El siguiente código se ejecuta 6 veces más lento en una CPU Skylake (i5-6500) si elVZEROUPPER La instrucción está ...
¿Multiplicación de matriz grande (0,1) usando AND bit a bit y popcount en lugar de multiplicaciones int o float reales?
Para multiplicar matrices binarias grandes (10Kx20K), lo que suelo hacer es convertir las matrices en flotantes y realizar una multiplicación de matriz flotante ya que la multiplicación de matriz entera es bastante lenta (mira ...
El código SIMD funciona más lento que el código escalar
elma yelmc son ambosunsigned long matrices Así sonres1 yres2. unsigned long simdstore[2]; __m128i *p, simda, simdb, simdc; p = (__m128i *) simdstore; for (i = 0; i < _polylen; i++) { u1 = (elma[i] >> l) & 15; u2 = (elmc[i] >> l) & 15; for (k = ...
Valores de 128 bits: desde registros XMM hasta fines generales
Tengo un par de preguntas relacionadas con el movimiento de valores XMM a registros de propósito general. Todas las preguntas encontradas en SO se centran en lo contrario, es decir, transferir valores en registros gp a XMM. ¿Cómo puedo mover un ...
Mejore el código SSE (SSSE3) YUV a RGB
Estoy buscando optimizar algún código SSE que escribí para convertir YUV a RGB (funciones YUV planas y empaquetadas). Estoy usando SSSE3 en este momento, pero si hay funciones útiles de versiones posteriores de SSE, está bien. Estoy ...
diferencia entre MMX y XMM registrarse?
Actualmente estoy aprendiendo programación de ensamblaje en el procesador Intel x86. ¿Podría alguien explicarme cuál es la diferencia entre el registro MMX y XMM? Estoy muy confundido en términos de qué funciones cumplen y la diferencia ...
SSE2: función de registro de doble precisión
Necesito la implementación de código abierto (sin restricción de licencia) de la función de registro, algo con firma __m128d _mm_log_pd(__m128d);Está disponible en Intel Short Vector Math Library (parte de ICC), pero ICC no es gratuito ni de ...