Resultados de la búsqueda a petición "sse"
Deshabilite las funciones AVX2 en procesadores que no sean de Haswell
He escrito un código AVX2 para ejecutar en un procesador Haswell i7. La misma base de código también se usa en procesadores que no son de Haswell, donde el mismo código debe reemplazarse con sus equivalentes SSE. Me preguntaba si hay una manera ...
SSE, problema de rendimiento de fila principal frente a columna principal
Para asuntos personales y divertidos, estoy codificando una geom lib usando SSE (4.1). Pasé las últimas 12 horas tratando de comprender un problema de rendimiento al tratar con la matriz almacenada de fila principal frente a columna ...
¿Cómo calcula esta función el valor absoluto de un flotante a través de una operación NOT y AND?
Estoy tratando de entender cómo funciona el siguiente fragmento de código. Este programa utiliza instrucciones de vector SIMD (Intel SSE) para calcular el valor absoluto de 4 flotadores (así, básicamente, una función vectorizada "fabs ()"). Aquí ...
¿Forma correcta de habilitar SSE4 por función / por bloque de código?
Para uno de mis programas OS X, tengo algunos casos optimizados que usan instrucciones SSE4.1. En máquinas solo SSE3, se ejecuta la rama no optimizada: // SupportsSSE4_1 returns true on CPUs that support SSE4.1, false otherwise ...
pthreads v. SSE ordenamiento de memoria débil
¿Las funciones pthread de Linux glibc en x86_64 actúan como cercas para accesos de memoria débilmente ordenados? (pthread_mutex_lock / unlock son las funciones exactas que me interesan). SSE2 proporciona algunas instrucciones con un orden de ...
¿Cómo implementar "_mm_storeu_epi64" sin problemas de alias?
(Nota: aunque esta pregunta es sobre "almacenar", el caso de "carga" tiene los mismos problemas y es perfectamente simétrico). Los intrínsecos SSE proporcionan ...
Optimización SIMD de cvtColor usando ARM NEON intrinsics
Estoy trabajando en una optimización SIMD de BGR a conversión de escala de grises que es equivalente aOpenCV'scvtColor() función [http://docs.opencv.org/2.4/modules/imgproc/doc/miscellaneous_transformations.html] . Hay una versión Intel SSE de ...
transposición para 8 registros de elementos de 16 bits en SSE2 / SSSE3
(Soy un novato en SSE / asm, disculpas si esto es obvio o redundante) ¿Existe una mejor manera de transponer 8 registros SSE que contengan valores de 16 bits que realizar 24 desbloqueos [lh] ps y 8/16 + barajaduras y usar 8 registros ...
Instrucciones de SSE 4 generadas por Visual Studio 2013 Update 2 y Update 3
Si compilo este código en VS 2013 Actualización 2 o Actualización 3: (a continuación proviene de la Actualización 3) #include "stdafx.h" #include <iostream> #include <random> struct Buffer { long* data; int count; }; #ifndef max #define max(a,b) ...
memset en paralelo con hilos unidos a cada núcleo físico
He estado probando el código enEn un código paralelo OpenMP, ¿habría algún beneficio para que memset se ejecute en ...