Результаты поиска по запросу "avx"

2 ответа

Самый быстрый способ умножения массива int64_t?

Я хочу векторизовать умножение двух выровненных массивов памяти. Я не нашел способа умножить 64 * 64 бит в AVX / AVX2, поэтому я просто развернул петлю и загрузил / сохранил AVX2. Есть ли более быстрый способ сделать это? Заметка Я не хочу ...

1 ответ

Где Кланг '_mm256_pow_ps' свойственный?

Кажется, я не могу найти встроенные функции для _mm_pow_ps или _mm256_pow_ps, оба из которых должны быть включены в immintrin.h.Clang не определяет их или он...

1 ответ

Есть ли обратная инструкция к инструкции Movemask в Intel AVX2?

Инструкция (и) movemask берут __m256i и возвращают int32, где каждый бит (либо первые 4, 8 или все 32 бита в зависимости от типа входного векторного элемента) является старшим значащим битом соответствующего векторного элемента. Я хотел бы ...

ТОП публикаций

1 ответ

Самый эффективный способ получить __m256 горизонтальных сумм из 8 исходных __m256 векторов

Я знаю как подвести итог

1 ответ

_mm_testc_ps и _mm_testc_pd vs _mm_testc_si128

Как вы знаете, первые два относятся к спецификациям AVX, а вторая - к SSE4.1. Оба набора встроенных функций могут использоваться для проверки на равенство 2 векторов с плавающей точкой. Мой конкретный вариант использования: _mm_cmpeq_ps ...

2 ответа

Индексы ненулевых байтов регистра SSE / AVX

1 ответ

Каковы лучшие последовательности команд для генерации векторных констант на лету?

«Наилучший» означает наименьшее количество инструкций (или наименьшее количество мопов, если какие-либо инструкции декодируются в более чем один моп). Размер...

1 ответ

Загрузка 8 символов из памяти в переменную __m256 как упакованные числа с плавающей запятой одинарной точности

Я оптимизирую алгоритм размытия по Гауссу на изображении и хочу заменить использование плавающего буфера [8] в приведенном ниже коде встроенной переменной __...

2 ответа

Автоматически генерировать инструкции FMA в MSVC

MSVC поддерживает инструкции AVX / AVX2 в течение многих лет и в соответствии сэто сообщение в блоге msdn, он может автоматически генерироватьсплавлено-умнож...

2 ответа

Как написать код на C ++, который компилятор может эффективно компилировать в SSE или AVX?