Resultados de la búsqueda a petición "avx"
Implementación más rápida de la función exponencial usando AVX
Estoy buscando una aproximación eficiente (rápida) de la función exponencial que opera en elementos AVX (punto flotante de precisión simple). A saber -__m256 _mm256_exp_ps( __m256 x ) sin SVML. La precisión relativa debería ser algo así como ~ ...
¿Hay una manera más eficiente de transmitir 4 dobles contiguos en 4 registros YMM?
En un fragmento de código C ++ que hace algo similar a (pero no exactamente) la multiplicación de matrices, cargo 4 dobles contiguos en 4 registros YMM como este: # a is a 64-byte aligned array of double __m256d b0 ...
La forma más rápida de descomprimir 32 bits en un vector SIMD de 32 bytes
Tener 32 bits almacenados en unuint32_t en la memoria, ¿cuál es la forma más rápida de descomprimir cada bit en un elemento de byte separado de un registro AVX? Los bits pueden estar en cualquier posición dentro de sus respectivos bytes. Editar: ...
¿Las variables SSE / AVX locales estáticas / estáticas bloquean un registro xmm / ymm?
Cuando se usan intrínsecos SSE, a menudo se requieren cero vectores. Una forma de evitar crear una variable cero dentro de una función cada vez que se llama a la función (cada vez que se llama efectivamente alguna instrucción de vector xor) sería ...
símbolo externo sin resolver __mm256_setr_epi64x
He escrito y depurado algunos códigos AVX con g ++ y ahora estoy tratando de que funcione con MSVC, pero sigo obteniendo error LNK2019: símbolo externo sin resolver __mm256_setr_epi64x al que se hace referencia en la función "privado: unión ...
Recuento de población de 64 bits más rápido (peso de Hamming)
Tuve que calcular el peso de Hamming para un flujo continuo bastante rápido de datos de 64 bits y usar elpopcnt Las instrucciones de ensamblaje me arrojan una excepción en mi Intel Core i7-4650U. Revisé el deleite de mi biblia Hacker y escaneé ...
¿Es posible el práctico BigNum AVX / SSE?
Los registros SSE / AVX pueden verse como números enteros o de coma flotante BigNums. Es decir, uno podría descuidar que existen carriles en absoluto. ¿Existe una manera fácil de explotar este punto de vista y usar estos registros como BigNums, ...
Mapa de bits uint8_t óptimo en un vector "bool" SIMD de 8 x 32 bits
Como parte de un algoritmo de compresión, estoy buscando la forma óptima de lograr lo siguiente: Tengo un mapa de bits simple en unuint8_t. Por ejemplo 01010011 Lo que quiero es un__m256i de la forma: (0, maxint, 0, maxint, 0, 0, ...
Intel SIMD: ¿cómo puedo verificar si un __m256 * contiene valores distintos de cero?
Estoy usando el compilador de Microsoft Visual Studio. Estoy tratando de averiguar si un vector de 256 bits contiene valores distintos de cero. Yo he tratadores_simd = ! _mm256_testz_ps(*pSrc1, *pSrc1); Pero no funciona.
Aritmética de punto flotante de media precisión en chips Intel
¿Es posible realizar aritmética de coma flotante de precisión media en chips Intel? Sé cómo cargar / almacenar / convertir números de coma flotante de precisión media [1] pero no sé cómo agregarlos / multiplicarlos sin convertirlos a números de ...