Resultados de la búsqueda a petición "sse"
Traducción de SSE a Neon: cómo empacar y luego extraer el resultado de 32 bits
Tengo que traducir las siguientes instrucciones de SSE a Neon uint32_t a = _mm_cvtsi128_si32(_mm_shuffle_epi8(a,SHUFFLE_MASK) );Dónde: static const __m128i SHUFFLE_MASK = _mm_setr_epi8(3, 7, 11, 15, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, ...
Cómo convertir un flotador hexadecimal en un flotador en C / C ++ usando la función de inserción _mm_extract_ps SSE GCC
Estoy escribiendo un código SSE en convolución 2D, pero la documentación de SSE es muy escasa. Estoy calculando el producto de punto con _mm_dp_ps y usando _mm_extract_ps para obtener el resultado del producto de punto, pero _mm_extract_ps ...
¿Las diferentes versiones mmx, sse y avx son complementarias o supersets entre sí?
Estoy pensando en familiarizarme con las extensiones x86 SIMD. Pero incluso antes de comenzar, me encontré con problemas. No puedo encontrar una buena descripción sobre cuáles de ellos siguen siendo relevantes. La arquitectura x86 ha acumulado ...
¿Cuántos ciclos de reloj cuesta la exponenciación AVX / SSE en la CPU moderna x86_64?
¿Cuántos ciclos de reloj cuesta la exponenciación AVX / SSE en la CPU moderna x86_64? Estoy a punto de:pow(x, y) = exp(y*log(x)) [https://stackoverflow.com/questions/25936031/pow-for-sse-types] Es decir. Haz ambosexp() ylog() ¿Las instrucciones ...
¿Cómo habilito SSE para mi código de arranque independiente?
(Esta pregunta fue originalmente sobre elCVTSI2SD instrucciones y el hecho de que pensé que no funcionaba en la CPU Pentium M, pero de hecho es porque estoy usando un sistema operativo personalizado y necesito habilitar SSE manualmente). Tengo ...
¿Escribir x86 asm funciona de forma portátil (win / linux / osx), sin una construcción dependiente de yasm / nasm?
par2 [https://github.com/Parchive/par2cmdline]tiene una base de código C ++ pequeña y bastante limpia, que creo que funciona bien en GNU / Linux, OS X y Windows (con MSVC ++). Me gustaría incorporar una versión asm x86-64 de la función que ...
Error de C ++: "_mm_sin_ps" no se declaró en este ámbito
Estoy tratando de comparar diferentes formas de aplicar una función a una matriz. por que ...
¿Por qué GCC o Clang no optimizan la instrucción recíproca a 1 cuando se usan matemáticas rápidas?
¿Alguien sabe por qué GCC / Clang no optimizará la función?prueba1 en el ejemplo de código a continuación para usar simplemente la instrucción RCPPS al usar la opción de matemática rápida? ¿Hay otro indicador del compilador que generaría este ...
Las cargas no temporales y el prefetcher de hardware, ¿funcionan juntos?
Al ejecutar una serie de_mm_stream_load_si128() llamadas (MOVNTDQA) desde ubicaciones de memoria consecutivas, ¿se seguirá activando la búsqueda previa de hardware, o debería usar la búsqueda previa de software explícita (con sugerencia de NTA) ...
La forma más rápida de calcular el valor absoluto utilizando SSE
Conozco 3 métodos, pero que yo sepa, solo se usan los primeros 2: Enmascarar el bit de signo usandoandps oandnotps. Pros: Una instrucción rápida si la máscara ya está en un registro, lo que la hace perfecta para hacer esto muchas veces en un ...