Resultados de la búsqueda a petición "sse"

2 la respuesta

Deshabilite las funciones AVX2 en procesadores que no sean de Haswell

He escrito un código AVX2 para ejecutar en un procesador Haswell i7. La misma base de código también se usa en procesadores que no son de Haswell, donde el mismo código debe reemplazarse con sus equivalentes SSE. Me preguntaba si hay una manera ...

2 la respuesta

SSE, problema de rendimiento de fila principal frente a columna principal

Para asuntos personales y divertidos, estoy codificando una geom lib usando SSE (4.1). Pasé las últimas 12 horas tratando de comprender un problema de rendimiento al tratar con la matriz almacenada de fila principal frente a columna ...

1 la respuesta

¿Cómo calcula esta función el valor absoluto de un flotante a través de una operación NOT y AND?

Estoy tratando de entender cómo funciona el siguiente fragmento de código. Este programa utiliza instrucciones de vector SIMD (Intel SSE) para calcular el valor absoluto de 4 flotadores (así, básicamente, una función vectorizada "fabs ()"). Aquí ...

3 la respuesta

¿Forma correcta de habilitar SSE4 por función / por bloque de código?

Para uno de mis programas OS X, tengo algunos casos optimizados que usan instrucciones SSE4.1. En máquinas solo SSE3, se ejecuta la rama no optimizada: // SupportsSSE4_1 returns true on CPUs that support SSE4.1, false otherwise ...

1 la respuesta

pthreads v. SSE ordenamiento de memoria débil

¿Las funciones pthread de Linux glibc en x86_64 actúan como cercas para accesos de memoria débilmente ordenados? (pthread_mutex_lock / unlock son las funciones exactas que me interesan). SSE2 proporciona algunas instrucciones con un orden de ...

1 la respuesta

¿Cómo implementar "_mm_storeu_epi64" sin problemas de alias?

(Nota: aunque esta pregunta es sobre "almacenar", el caso de "carga" tiene los mismos problemas y es perfectamente simétrico). Los intrínsecos SSE proporcionan ...

1 la respuesta

Optimización SIMD de cvtColor usando ARM NEON intrinsics

Estoy trabajando en una optimización SIMD de BGR a conversión de escala de grises que es equivalente aOpenCV'scvtColor() función [http://docs.opencv.org/2.4/modules/imgproc/doc/miscellaneous_transformations.html] . Hay una versión Intel SSE de ...

3 la respuesta

transposición para 8 registros de elementos de 16 bits en SSE2 / SSSE3

(Soy un novato en SSE / asm, disculpas si esto es obvio o redundante) ¿Existe una mejor manera de transponer 8 registros SSE que contengan valores de 16 bits que realizar 24 desbloqueos [lh] ps y 8/16 + barajaduras y usar 8 registros ...

1 la respuesta

Instrucciones de SSE 4 generadas por Visual Studio 2013 Update 2 y Update 3

Si compilo este código en VS 2013 Actualización 2 o Actualización 3: (a continuación proviene de la Actualización 3) #include "stdafx.h" #include <iostream> #include <random> struct Buffer { long* data; int count; }; #ifndef max #define max(a,b) ...

1 la respuesta

memset en paralelo con hilos unidos a cada núcleo físico

He estado probando el código enEn un código paralelo OpenMP, ¿habría algún beneficio para que memset se ejecute en ...