Результаты поиска по запросу "sse"

1 ответ

Задержки обхода при переключении доменов исполнительного блока

Я пытаюсь понять возможные задержки обхода при переключении доменов исполнительных блоков. Например, следующие две строки кода дают точно такой же результат. _mm_add_ps(x, _mm_castsi128_ps(_mm_slli_si128(_mm_castps_si128(x), 8))); _mm_add_ps(x, ...

4 ответа

Я пытаюсь читать в регистр, а не в память ...

у_mm_extract_ps вернутьint вместоfloat? Как правильно читать сингл?float из регистра XMM в C? Или, скорее, другой способ задать это:Что противоположно_mm_set_ps инструкция?

15 ответов

Новые версии всегда прогрессируют в функциях и функциональности. Я слышал, что векторизатор GCC довольно хорош и лучше в версии 4.3, особенно теперь, когда он используется по умолчанию в -O3.

я есть цикл, написанный на C ++, который выполняется для каждого элемента большого целочисленного массива. Внутри цикла я маскирую некоторые биты целого числа, а затем нахожу минимальное и максимальное значения. Я слышал, что если я использую ...

ТОП публикаций

2 ответа

Арифметический сдвиг для целых чисел со знаком. Логический сдвиг для целых чисел без знака.

аюсь выяснить достаточно быструю функцию билинейной фильтрации только для одного отфильтрованного образца за раз в качестве упражнения для привыкания к использованию встроенных функций - до SSE41 это хорошо. Пока у меня есть следующее: inline ...

5 ответов

флаги: FPU VME-де-псевдоэфедрин TSC MSR пае MCE CX8 APIC SEP MTRR PGE MCA CMOV погладить pse36 clflush MMX fxsr ссе sse2 ХТ системный вызов пх pdpe1gb rdtscp лм constant_tsc rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu ПНИ PCLMULQDQ SSSE3 FMA CX16 PCID sse4_1 sse4_2 x2APIC movbe POPCNT tsc_deadline_timer АЕС xsave avx f16c гипервизор rdrand lahf_lm abm 3dnowprefetch invpcid_single retpoline kaiser fsgsbase bmi1 hle avx2 smep bmi2 erms invpcid rtm rdseed adx xsaveopt

вителен ли следующий код для проверки, поддерживает ли ЦП набор команд SSE3? С помощьюIsProcessorFeaturePresent() функция видимо не работает на Windows ...

1 ответ

 и опусти до 4.

аюсь написать сжатие потока (взять массив и избавиться от пустых элементов) с внутренними SIMD. Каждая итерация цикла обрабатывает 8 элементов одновременно (ширина SIMD). Благодаря встроенным функциям SSE я могу сделать это довольно эффективно ...

2 ответа

, Это вызывает так называемую задержку переформатирования ".

ался изо всех сил оптимизировать некоторый код, который я использую с помощью встроенных функций sse от Microsoft. Одна из самых больших проблем при оптимизации моего кода - это LHS, возникающая всякий раз, когда я хочу использовать константу. ...

5 ответов

 намного быстрее, если он не попадает в кеш. Но это не будет, если это работает часто

же естьвопрос [https://stackoverflow.com/questions/4609677/implementation-of-aes-in-assembly] на этом, но это было закрыто как "неоднозначное", таким образом, я открываю новый - я нашел ответ, возможно это поможет другим также. Вопрос в том, как ...

2 ответа

@ Миша: я предполагаю, что люди, которые будут беспокоиться, знают, что они делают, но да =)

ался векторизовать цикл, который содержит использование функции 'pow' в математической библиотеке. Я знаю, что компилятор Intel поддерживает использование 'pow' для инструкций sse - но я не могу заставить его работать с gcc (я думаю). Это тот ...

8 ответов

Я думаю, что он ищет что-то большее, чем просто внутреннее (какая-то абстракция более высокого уровня, я полагаю), но не совсем понятно, что именно.

ибудь знает библиотеку с открытым исходным кодом C ++ x86 SIMD? Intel предоставляет именно то, что мне нужно, в их интегрированной библиотеке примитивов производительности, но я не могу использовать это из-за авторских прав ...