Результаты поиска по запросу "avx"

2 ответа

Выровненный и невыровненный доступ к памяти с помощью встроенных функций AVX / AVX2

Согласно Руководству разработчика программного обеспечения Intel (раздел 14.9), AVX ослабил требования к выравниванию обращений к памяти. Если данные загружа...

1 ответ

@Zboson: GPU mandelbrot, вероятно, не о масштабировании или его полезности, а скорее о хорошо известной и простой проблеме с очень высокой вычислительной интенсивностью / низкой пропускной способностью памяти. (И цепочка зависимости данных, которая может ограничивать ILP). На этой странице были и другие ориентиры, но мне нравится Мандельброт.

ли выполнить арифметику с плавающей запятой половинной точности на чипах Intel? Я знаю, как загружать / хранить / преобразовывать числа с плавающей запятой половинной точности [1], но я не знаю, как добавить / умножить их без преобразования в ...

1 ответ

Удивительный ответ .. Спасибо, Питер.

аюсь профилировать мой код C ++ с помощью инструмента Perf. Реализация содержит код с инструкциями SSE / AVX / AVX2. В дополнение к этому код скомпилирован с-O3 -mavx2 -march=native флаги. я верю__memset_avx2_unaligned_erms функция ...

ТОП публикаций

2 ответа

производительность SSE и AVX, когда ширина полосы памяти ограничена

В приведенном ниже коде я изменил «dataLen» и получил другую эффективность. dataLen = 400 SSE время: 758000 долларов США AVX время: 483000 долларов США SSE> AVX dataLen = 2400 SSE время: 4212000 сша AVX время: 2636000 сша SSE> AVX dataLen = ...

3 ответа

Есть ли более эффективный способ транслировать 4 смежных дубли в 4 регистра YMM?

В фрагменте кода C ++, который выполняет что-то похожее (но не совсем) умножение матриц, я загружаю 4 смежных двойных числа в 4 регистра YMM следующим образом:

1 ответ

Самый быстрый способ распаковать 32 бита в 32-байтовый вектор SIMD

32 бита хранятся в

1 ответ

@PeterCordes Должен ли я превратить этот ответ в вики сообщества, чтобы вы могли вставить свой ответ здесь? К сожалению, я не могу не принять мой ответ.

у некоторыеAVX код и мне нужно загрузить из потенциально невыровненной памяти. Я сейчас загружаю 4двойникиследовательно, я бы использовал внутреннюю инструкцию _mm256, _loadu_pd [https://software.intel.com/en-us/node/524102]; код, который ...

2 ответа

FMA3 в GCC: как включить

У меня есть i5-4250U, который имеет AVX2 и FMA3. Я тестирую код плотного матричного умножения в GCC 4.8.1 для Linux, который я написал. Ниже приведен список трех разных способов компиляции. SSE2: gcc matrix.cpp -o matrix_gcc -O3 -msse2 -fopenmp ...

3 ответа

Доступны ли более старые SIMD-версии при использовании более новых?

Когда я могу использовать SSE3 или AVX, тогда доступны более старые версии SSE как SSE2 или MMX - или мне все еще нужно проверять их отдельно?

4 ответа

горизонтальная сумма 8 упакованных 32-битных чисел

Если у меня есть 8 упакованных 32-битных чисел с плавающей запятой (