Результаты поиска по запросу "avx"
Самый быстрый способ умножения массива int64_t?
Я хочу векторизовать умножение двух выровненных массивов памяти. Я не нашел способа умножить 64 * 64 бит в AVX / AVX2, поэтому я просто развернул петлю и загрузил / сохранил AVX2. Есть ли более быстрый способ сделать это? Заметка Я не хочу ...
Где Кланг '_mm256_pow_ps' свойственный?
Кажется, я не могу найти встроенные функции для _mm_pow_ps или _mm256_pow_ps, оба из которых должны быть включены в immintrin.h.Clang не определяет их или он...
Есть ли обратная инструкция к инструкции Movemask в Intel AVX2?
Инструкция (и) movemask берут __m256i и возвращают int32, где каждый бит (либо первые 4, 8 или все 32 бита в зависимости от типа входного векторного элемента) является старшим значащим битом соответствующего векторного элемента. Я хотел бы ...
Самый эффективный способ получить __m256 горизонтальных сумм из 8 исходных __m256 векторов
Я знаю как подвести итог
_mm_testc_ps и _mm_testc_pd vs _mm_testc_si128
Как вы знаете, первые два относятся к спецификациям AVX, а вторая - к SSE4.1. Оба набора встроенных функций могут использоваться для проверки на равенство 2 векторов с плавающей точкой. Мой конкретный вариант использования: _mm_cmpeq_ps ...
Каковы лучшие последовательности команд для генерации векторных констант на лету?
«Наилучший» означает наименьшее количество инструкций (или наименьшее количество мопов, если какие-либо инструкции декодируются в более чем один моп). Размер...
Загрузка 8 символов из памяти в переменную __m256 как упакованные числа с плавающей запятой одинарной точности
Я оптимизирую алгоритм размытия по Гауссу на изображении и хочу заменить использование плавающего буфера [8] в приведенном ниже коде встроенной переменной __...
Автоматически генерировать инструкции FMA в MSVC
MSVC поддерживает инструкции AVX / AVX2 в течение многих лет и в соответствии сэто сообщение в блоге msdn, он может автоматически генерироватьсплавлено-умнож...