Результаты поиска по запросу "avx"

1 ответ

Сдвиг 4 целых числа вправо на разные значения SIMD

1 ответ

Почему этот код SSE в 6 раз медленнее без VZEROUPPER на Skylake?

Я пытался выяснить проблему с производительностью в приложении и, наконец, сузил ее до действительно странной проблемы. Следующий фрагмент кода работает в 6 ...

1 ответ

, но он поддерживает другие встроенные функции в моем коде.

тирую следующую простую функцию

ТОП публикаций

1 ответ

@Zboson: GPU mandelbrot, вероятно, не о масштабировании или его полезности, а скорее о хорошо известной и простой проблеме с очень высокой вычислительной интенсивностью / низкой пропускной способностью памяти. (И цепочка зависимости данных, которая может ограничивать ILP). На этой странице были и другие ориентиры, но мне нравится Мандельброт.

ли выполнить арифметику с плавающей запятой половинной точности на чипах Intel? Я знаю, как загружать / хранить / преобразовывать числа с плавающей запятой половинной точности [1], но я не знаю, как добавить / умножить их без преобразования в ...

1 ответ

Удивительный ответ .. Спасибо, Питер.

аюсь профилировать мой код C ++ с помощью инструмента Perf. Реализация содержит код с инструкциями SSE / AVX / AVX2. В дополнение к этому код скомпилирован с-O3 -mavx2 -march=native флаги. я верю__memset_avx2_unaligned_erms функция ...

1 ответ

 это 2 мопс. (И вызывает остановку перехода SSE / AVX на Haswell, но не Skylake). Кроме того, все эти операции являются частью цепочки зависимостей для изменяемого регистра, в отличие от установки значения в другом регистре и смешивания.

состоит в том, что я хотел бы собрать возвращенные значенияdouble в векторный регистр для обработки для машиныimm width вовремябезСохранение обратно в память первым. Конкретная обработка являетсяvfma с двумя другими операндами, ...

1 ответ

В конце концов я взломал и скачал Xcode 4 - похоже, Clang - единственный компилятор, который может поддерживать AVX в настоящее время, хотя я не проверял его должным образом:

е чем тратить время и деньги на загрузку Xcode 4, кто-нибудь может сказать мне, поставляется ли он с версией gcc (или любым другим компилятором, например, LLVM), который поддерживает набор инструкций AVX на процессорах Sandy Bridge (т.е.gcc -mavx ...

1 ответ

@PeterCordes Должен ли я превратить этот ответ в вики сообщества, чтобы вы могли вставить свой ответ здесь? К сожалению, я не могу не принять мой ответ.

у некоторыеAVX код и мне нужно загрузить из потенциально невыровненной памяти. Я сейчас загружаю 4двойникиследовательно, я бы использовал внутреннюю инструкцию _mm256, _loadu_pd [https://software.intel.com/en-us/node/524102]; код, который ...

1 ответ

Спасибо за ссылку на документ.

у сеть прямой связи в VC ++ с использованием встроенных функций AVX. Я вызываю этот код через PInvoke в C #. Моя производительность при вызове функции, которая вычисляет большой цикл, включая функцию exp (), составляет ~ 1000 мс при размере петли ...

1 ответ

SSE загружает целые в __m128

Каковы особенности GCC для загрузки 4ints в__m128 и 8 дюймов в__m256 (Выровнены / невыровненной)? Что оunsigned ints?