Результаты поиска по запросу "sse"

Я пытаюсь реализовать векторизацию SSE для фрагмента кода, для которого мне нужно, чтобы мой 1D массив был выровнен с 16-байтовой памятью. Тем не менее, я по...

avx avx2 x86 simd

1 ответ

AVX2, Как эффективно загрузить четыре целых числа в четные индексы 256-битного регистра и копировать в нечетные индексы?

ТОП публикаций

Test Test Test Test Test Test

21 Startup Ideas to Start Profitable Business in 2020

How To Build E-Learning Platform From Scratch: The Complex Guide From Idea to MVP

How to Raise Your Own SaaS Product off the Ground and Avoid Common Pitfalls

simd c intel c++

1 ответ

Выравнивание и странное поведение SSE

Я пытаюсь работать с SSE, и я столкнулся с некоторым странным поведением.Я пишу простой код для сравнения двух строк с SSE Intrinsics, запускаю его, и он раб...

parallel-processing memset multithreading openmp

1 ответ

memset параллельно с потоками, привязанными к каждому физическому ядру

Я тестировал код наВ параллельном коде OpenMP, будет ли какая-то польза для параллельного запуска memset? и я наблюдаю что-то неожиданное.Моя система предста...

prefetch x86 cpu-cache performance

4 ответа

Временные нагрузки и аппаратный предварительный выбор, они работают вместе?

При выполнении серии

performance c++matrix

2 ответа

SSE, ряд основных против основных проблем производительности столбца

Для личного и забавного я пишу geom lib, используя SSE (4.1).Последние 12 часов я провожу, пытаясь понять проблему с производительностью при работе с основно...

simd avx extended-precision biginteger

3 ответа

Возможно ли практическое использование BigNum AVX / SSE?

Регистры SSE / AVX можно рассматривать как большие числа с целыми числами или числами с плавающей запятой. То есть можно пренебречь тем, что полосы вообще су...

avx x86 simd

4 ответа

горизонтальная сумма 8 упакованных 32-битных чисел

Если у меня есть 8 упакованных 32-битных чисел с плавающей запятой (

simd addition floating-point c++

3 ответа

добавление компонентов регистра SSE

Я хочу добавить четыре компонента регистра SSE, чтобы получить один float. Вот как я это делаю сейчас: float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];Есть ли инструкция SSE, которая непосредственно достигает этого?

Страница 1 из 21

12 3 4 5

Результаты поиска по запросу "sse"

Как сложить __m256 по горизонтали?

Как выделить 16-байтовые данные, выровненные по памяти

AVX2, Как эффективно загрузить четыре целых числа в четные индексы 256-битного регистра и копировать в нечетные индексы?

Популярные теги

ТОП публикаций

Выравнивание и странное поведение SSE

memset параллельно с потоками, привязанными к каждому физическому ядру

Временные нагрузки и аппаратный предварительный выбор, они работают вместе?

SSE, ряд основных против основных проблем производительности столбца

Возможно ли практическое использование BigNum AVX / SSE?

горизонтальная сумма 8 упакованных 32-битных чисел

добавление компонентов регистра SSE

Вы очень активны! Это здорово!

Результаты поиска по запросу "sse"

Популярные теги

ТОП публикаций