Результаты поиска по запросу "avx2"
re: константы: если вы тестируете в цикле, хороший компилятор поднимет нагрузку большинства из них (в регистры вне цикла), поэтому не имеет значения, находятся они рядом со столом или нет. Если они не все подходят, то некоторые должны будут оставаться горячими в кеше.
х__m256d _mm256_log2_pd (__m256d a) недоступна на других компиляторах, кроме Intel, и они говорят, что его производительность ограничена на процессорах AMD. В Интернете есть несколько реализаций, указанных вОтсутствует встроенная логика AVX ...
@PeterCordes Иногда код становится более понятным, когда вы пишете константы в виде двоичного файла. Это не тот случай, я признаю :-).
у преобразовать 8-битное целое число в массив размером 8 с каждым значением, содержащим битовое значение целого числа. Например: у меня естьint8_t x = 8; Я хочу преобразовать это вint8_t array_x = {0,0,0,0,1,0,0,0}; Это должно быть сделано ...
директивы ассемблера (16-битные блоки) вместо
ли (быстрый) способ выполнить биты, обратные 32-битным значениям int в регистре avx2? Например. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 //register contains ...
Самый быстрый способ распаковать 32 бита в 32-байтовый вектор SIMD
32 бита хранятся в
Загрузка 8 символов из памяти в переменную __m256 как упакованные числа с плавающей запятой одинарной точности
Я оптимизирую алгоритм размытия по Гауссу на изображении и хочу заменить использование плавающего буфера [8] в приведенном ниже коде встроенной переменной __...
Оптимальное растровое изображение uint8_t в 8 * 32-битный SIMD-вектор «bool»
Как часть алгоритма сжатия, я ищу оптимальный способ достижения следующего:У меня есть простое растровое изображение в
Есть ли обратная инструкция к инструкции Movemask в Intel AVX2?
Инструкция (и) movemask берут __m256i и возвращают int32, где каждый бит (либо первые 4, 8 или все 32 бита в зависимости от типа входного векторного элемента) является старшим значащим битом соответствующего векторного элемента. Я хотел бы ...
Набор инструкций.
с:Какова наиболее эффективная последовательность для генерации набора из 3-х элементов из памяти? Если память устроена так: MEM = R0 G0 B0 R1 G1 B1 R2 G2 B2 R3 G3 B3 ...Мы хотим получить три регистра YMM, где: YMM0 = R0 R1 R2 R3 R4 R5 R6 R7 ...