Результаты поиска по запросу "simd"

2 ответа

Индексы ненулевых байтов регистра SSE / AVX

4 ответа

Почему векторизация цикла не имеет улучшения производительности

Я изучаю влияние векторизации на производительность программы. В связи с этим я написал следующий код: #include <stdio.h> #include <sys/time.h> #include <stdlib.h> #define LEN 10000000 int main(){ struct timeval stTime, endTime; double* a ...

5 ответов

SSE-copy, AVX-copy и std :: copy производительность

Я пытался улучшить производительность операции копирования через SSE и AVX: #include <immintrin.h> const int sz = 1024; float *mas = (float *)_mm_malloc(sz*sizeof(float), 16); float *tar = (float *)_mm_malloc(sz*sizeof(float), 16); float a=0; ...

ТОП публикаций

1 ответ

Как я могу применить __attribute __ ((выровненный (32))) к int *?

1 ответ

AVX2, Как эффективно загрузить четыре целых числа в четные индексы 256-битного регистра и копировать в нечетные индексы?

1 ответ

Сдвиг 4 целых числа вправо на разные значения SIMD

1 ответ

Выравнивание и странное поведение SSE

Я пытаюсь работать с SSE, и я столкнулся с некоторым странным поведением.Я пишу простой код для сравнения двух строк с SSE Intrinsics, запускаю его, и он раб...

1 ответ

Как инструкции по обнаружению конфликтов облегчают векторизацию циклов?

Семейства команд AVX512CD: VPCONFLICT, VPLZCNT и VPBROADCASTM.Раздел Википедии об этих инструкциях говорит:Инструкции в AVX-512 обнаружении конфликтов (AVX-5...

2 ответа

Как векторизовать с GCC?

Серия v4

4 ответа

ARM Cortex-A8: в чем разница между VFP и NEON

В процессоре ARM Cortex-A8 я понимаю, что такое NEON, это SIMD сопроцессор.Но работает ли модуль VFP (Vector Floating Point), который также является сопроцес...