Результаты поиска по запросу "simd"

1 ответ

 и опусти до 4.

аюсь написать сжатие потока (взять массив и избавиться от пустых элементов) с внутренними SIMD. Каждая итерация цикла обрабатывает 8 элементов одновременно (ширина SIMD). Благодаря встроенным функциям SSE я могу сделать это довольно эффективно ...

1 ответ

 полагаться на это поведение, хотя.

чебника, который я пишу, я ищу «реалистичный» и простой пример тупика, вызванного незнанием SIMT / SIMD. Я придумал этот фрагмент, который, кажется, хороший пример. Любой вклад будет оценен. … int x = threadID / 2; if (threadID > x) { ...

2 ответа

, Это вызывает так называемую задержку переформатирования ".

ался изо всех сил оптимизировать некоторый код, который я использую с помощью встроенных функций sse от Microsoft. Одна из самых больших проблем при оптимизации моего кода - это LHS, возникающая всякий раз, когда я хочу использовать константу. ...

ТОП публикаций

5 ответов

 намного быстрее, если он не попадает в кеш. Но это не будет, если это работает часто

же естьвопрос [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] на этом, но это было закрыто как "неоднозначное", таким образом, я открываю новый - я нашел ответ, возможно это поможет другим также. Вопрос в том, как ...

8 ответов

Я думаю, что он ищет что-то большее, чем просто внутреннее (какая-то абстракция более высокого уровня, я полагаю), но не совсем понятно, что именно.

ибудь знает библиотеку с открытым исходным кодом C ++ x86 SIMD? Intel предоставляет именно то, что мне нужно, в их интегрированной библиотеке примитивов производительности, но я не могу использовать это из-за авторских прав ...

4 ответа

Одно продолжение ... использование однопоточного 128-битного векторного кода «rgb_to_bgrx_sse», приведенного выше, дало результаты в диапазоне 11 мс для буферов ввода-вывода того же размера. vImage является явным победителем здесь.

должение некоторых предыдущих вопросов о преобразовании RGB в RGBA и ARGB в BGR я бы хотел ускоритьRGB в BGRAпреобразование сSSE, Предположим, 32-битный компьютер, и хотел бы использоватьвстроенные функции, У меня возникают трудности с ...

5 ответов

Оптимизация сжатия массива

Допустим, у меня есть массивk = [1 2 0 0 5 4 0] Я могу вычислить маску следующим образомm = k > 0 = [1 1 0 0 1 1 0] Используя только маску m и следующие операции Сдвиг влево / вправоИ / илиДобавить / Вычесть / MultiplyЯ могу сжать к ...

2 ответа

Является ли переменная __m128i нулевой?

Как мне проверить, если__m128i переменная имеет какое-либо ненулевое значение на процессорах SSE-2 и более ранних?

3 ответа

Умножение SSE 16 x uint8_t

Я хочу умножить с SSE4__m128i объект с 16 беззнаковыми 8-битными целыми числами, но я мог найти только встроенную функцию для умножения 16-битных целых чисел. Нет ничего такого как_mm_mult_epi8?

2 ответа

NEON векторизовать сумму произведений байтов без знака: (a [i] -int1) * (b [i] -int2)

Мне нужно улучшить цикл, потому что он вызывается моим приложением тысячи раз. Я полагаю, мне нужно сделать это с Неоном, но я не знаю, с чего начать. Допущения / предварительные условия: w всегда 320 (кратно 16/32).pa а такжеpb выровнены по 16 ...