Результаты поиска по запросу "sse"

2 ответа

Как сложить __m256 по горизонтали?

5 ответов

Как выделить 16-байтовые данные, выровненные по памяти

Я пытаюсь реализовать векторизацию SSE для фрагмента кода, для которого мне нужно, чтобы мой 1D массив был выровнен с 16-байтовой памятью. Тем не менее, я по...

1 ответ

AVX2, Как эффективно загрузить четыре целых числа в четные индексы 256-битного регистра и копировать в нечетные индексы?

ТОП публикаций

1 ответ

Выравнивание и странное поведение SSE

Я пытаюсь работать с SSE, и я столкнулся с некоторым странным поведением.Я пишу простой код для сравнения двух строк с SSE Intrinsics, запускаю его, и он раб...

1 ответ

memset параллельно с потоками, привязанными к каждому физическому ядру

Я тестировал код наВ параллельном коде OpenMP, будет ли какая-то польза для параллельного запуска memset? и я наблюдаю что-то неожиданное.Моя система предста...

4 ответа

Временные нагрузки и аппаратный предварительный выбор, они работают вместе?

При выполнении серии

2 ответа

SSE, ряд основных против основных проблем производительности столбца

Для личного и забавного я пишу geom lib, используя SSE (4.1).Последние 12 часов я провожу, пытаясь понять проблему с производительностью при работе с основно...

3 ответа

Возможно ли практическое использование BigNum AVX / SSE?

Регистры SSE / AVX можно рассматривать как большие числа с целыми числами или числами с плавающей запятой. То есть можно пренебречь тем, что полосы вообще су...

4 ответа

горизонтальная сумма 8 упакованных 32-битных чисел

Если у меня есть 8 упакованных 32-битных чисел с плавающей запятой (

3 ответа

добавление компонентов регистра SSE

Я хочу добавить четыре компонента регистра SSE, чтобы получить один float. Вот как я это делаю сейчас: float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];Есть ли инструкция SSE, которая непосредственно достигает этого?