Resultados de la búsqueda a petición "sse"

Estoy tratando de escribir una compactación de flujo (tome una matriz y elimine los elementos vacíos) con intrínsecos SIMD. Cada iteración del bucle procesa 8 elementos a la vez (ancho SIMD). Con intrínsecos SSE, puedo hacer esto de manera ...

c++optimization simd

2 la respuesta

Flotadores constantes con SIMD

He intentado optimizar el código que tengo usando los intrínsecos sse de microsoft. Uno de los mayores problemas al optimizar mi código es el LHS que ocurre cada vez que quiero usar una constante. Parece que hay algo de información sobre la ...

assembly x86 simd

5 la respuesta

Cómo mover 128 bits inmediatamente a los registros XMM

Ya hayuna pregunt [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] en esto, pero se cerró como "ambiguo", así que estoy abriendo uno nuevo. He encontrado la respuesta, tal vez también ayude a otros. La pregunta ...

c optimization loops vectorization

2 la respuesta

SSE vectorización de la función matemática 'pow' gcc

Estaba tratando de vectorizar un bucle que contiene el uso de la función 'pow' en la biblioteca matemática. Sé que el compilador de Intel admite el uso de 'pow' para instrucciones sse, pero parece que no puedo ejecutarlo con gcc (creo). Este es ...

optimization assembly floating-point x86

4 la respuesta

a forma más rápida de hacer una suma de vector flotante horizontal en x86

Tiene un vector de tres (o cuatro) flotadores. ¿Cuál es la forma más rápida de sumarlos? ¿SSE (movaps, shuffle, add, movd) siempre más rápido que x87? ¿Vale la pena las instrucciones de agregar horizontalmente en SSE4.2? ¿Cuál es el costo de ...

c opengl simd vectorization

4 la respuesta

Conversión vectorizada rápida de RGB a BGRA

n un seguimiento de algunas preguntas anteriores sobre la conversión de RGB a RGBA y ARGB a BGR, me gustaría acelerar unRGB a BGRA conversión con SSE. Supongamos una máquina de 32 bits y me gustaría utilizar intrínsecos. Tengo dificultades para ...

c++performance visual-studio-2010 avx

2 la respuesta

Utilizando instrucciones de CPU AVX: bajo rendimiento sin "/ arch: AVX"

Mi código C ++ usa SSE y ahora quiero mejorarlo para que sea compatible con AVX cuando esté disponible. Así que detecto cuando AVX está disponible y llamo a una función que usa comandos AVX. Uso Win7 SP1 + VS2010 SP1 y una CPU con AVX. Para ...

algorithm simd matlab

5 la respuesta

Optimizing Array Compaction

Digamos que tengo una matrizk = [1 2 0 0 5 4 0] Puedo calcular una máscara de la siguiente maneram = k > 0 = [1 1 0 0 1 1 0] Utilizando solo la máscara my las siguientes operaciones Desplazar izquierda / derecha Y / O Agregar / Restar / ...

c++c intel simd

2 la respuesta

¿Es una variable __m128i cero?

¿Cómo pruebo si un__m128i variable tiene algún valor distinto de cero en los procesadores SSE-2 y anteriores?

x86 simd sse4

3 la respuesta

SSE multiplicación 16 x uint8_t

Quiero multiplicar con SSE4 a__m128i objeto con 16 enteros de 8 bits sin signo, pero solo pude encontrar un intrínseco para multiplicar enteros de 16 bits. ¿No hay nada como_mm_mult_epi8?

Página 16 de 17

13 14 151617

Resultados de la búsqueda a petición "sse"

forma eficiente de convertir índices de dispersión en índices de recopilación?

Flotadores constantes con SIMD

Cómo mover 128 bits inmediatamente a los registros XMM

Etiquetas Populares

SSE vectorización de la función matemática 'pow' gcc

a forma más rápida de hacer una suma de vector flotante horizontal en x86

Conversión vectorizada rápida de RGB a BGRA

Utilizando instrucciones de CPU AVX: bajo rendimiento sin "/ arch: AVX"

Optimizing Array Compaction

¿Es una variable __m128i cero?

SSE multiplicación 16 x uint8_t

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "sse"

Etiquetas Populares