Результаты поиска по запросу "sse"

6 ответов

Инструкции SSE: какие процессоры могут выполнять атомные операции памяти 16B?

Рассмотрим инструкцию SSE с одним доступом к памяти (одно чтение или одна запись, а не чтение + запись) на процессоре x86. Эта команда обращается к 16 байтам (128 битам) памяти, а доступ к ячейке памяти выравнивается до 16 байтов. В документе ...

4 ответа

Одно продолжение ... использование однопоточного 128-битного векторного кода «rgb_to_bgrx_sse», приведенного выше, дало результаты в диапазоне 11 мс для буферов ввода-вывода того же размера. vImage является явным победителем здесь.

должение некоторых предыдущих вопросов о преобразовании RGB в RGBA и ARGB в BGR я бы хотел ускоритьRGB в BGRAпреобразование сSSE, Предположим, 32-битный компьютер, и хотел бы использоватьвстроенные функции, У меня возникают трудности с ...

4 ответа

Самый быстрый способ сделать горизонтальную векторную сумму с плавающей точкой на x86

У тебя есть вектор из трех (или четырех) поплавков. Какой самый быстрый способ их сложить? SSE (movaps, shuffle, add, movd) всегда быстрее, чем x87? Стоят ли инструкции горизонтального добавления в SSE4.2? Сколько стоит перейти на FPU, затем ...

ТОП публикаций

2 ответа

@ Миша: я предполагаю, что люди, которые будут беспокоиться, знают, что они делают, но да =)

ался векторизовать цикл, который содержит использование функции 'pow' в математической библиотеке. Я знаю, что компилятор Intel поддерживает использование 'pow' для инструкций sse - но я не могу заставить его работать с gcc (я думаю). Это тот ...

5 ответов

 намного быстрее, если он не попадает в кеш. Но это не будет, если это работает часто

же естьвопрос [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] на этом, но это было закрыто как "неоднозначное", таким образом, я открываю новый - я нашел ответ, возможно это поможет другим также. Вопрос в том, как ...

2 ответа

, Это вызывает так называемую задержку переформатирования ".

ался изо всех сил оптимизировать некоторый код, который я использую с помощью встроенных функций sse от Microsoft. Одна из самых больших проблем при оптимизации моего кода - это LHS, возникающая всякий раз, когда я хочу использовать константу. ...

1 ответ

 и опусти до 4.

аюсь написать сжатие потока (взять массив и избавиться от пустых элементов) с внутренними SIMD. Каждая итерация цикла обрабатывает 8 элементов одновременно (ширина SIMD). Благодаря встроенным функциям SSE я могу сделать это довольно эффективно ...

5 ответов

флаги: FPU VME-де-псевдоэфедрин TSC MSR пае MCE CX8 APIC SEP MTRR PGE MCA CMOV погладить pse36 clflush MMX fxsr ссе sse2 ХТ системный вызов пх pdpe1gb rdtscp лм constant_tsc rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu ПНИ PCLMULQDQ SSSE3 FMA CX16 PCID sse4_1 sse4_2 x2APIC movbe POPCNT tsc_deadline_timer АЕС xsave avx f16c гипервизор rdrand lahf_lm abm 3dnowprefetch invpcid_single retpoline kaiser fsgsbase bmi1 hle avx2 smep bmi2 erms invpcid rtm rdseed adx xsaveopt

вителен ли следующий код для проверки, поддерживает ли ЦП набор команд SSE3? С помощьюIsProcessorFeaturePresent() функция видимо не работает на Windows ...

2 ответа

Арифметический сдвиг для целых чисел со знаком. Логический сдвиг для целых чисел без знака.

аюсь выяснить достаточно быструю функцию билинейной фильтрации только для одного отфильтрованного образца за раз в качестве упражнения для привыкания к использованию встроенных функций - до SSE41 это хорошо. Пока у меня есть следующее: inline ...

4 ответа

Я пытаюсь читать в регистр, а не в память ...

у_mm_extract_ps вернутьint вместоfloat? Как правильно читать сингл?float из регистра XMM в C? Или, скорее, другой способ задать это:Что противоположно_mm_set_ps инструкция?