Результаты поиска по запросу "avx2"

2 ответа

@PeterCordes Иногда код становится более понятным, когда вы пишете константы в виде двоичного файла. Это не тот случай, я признаю :-).

у преобразовать 8-битное целое число в массив размером 8 с каждым значением, содержащим битовое значение целого числа. Например: у меня естьint8_t x = 8; Я хочу преобразовать это вint8_t array_x = {0,0,0,0,1,0,0,0}; Это должно быть сделано ...

1 ответ

Удивительный ответ .. Спасибо, Питер.

аюсь профилировать мой код C ++ с помощью инструмента Perf. Реализация содержит код с инструкциями SSE / AVX / AVX2. В дополнение к этому код скомпилирован с-O3 -mavx2 -march=native флаги. я верю__memset_avx2_unaligned_erms функция ...

2 ответа

 микро-слияния. Глупые, глючные инструменты с закрытым исходным кодом.) Во всяком случае, это поднимает планку еще больше, чтобы любой другой подход конкурировать.

у ускорить следующую операцию с инструкциями AVX2, но я не смог найти способ сделать это. Мне дали большой массивuint64_t data[100000] из uint64_t и массивunsigned char indices[100000] байтов. Я хочу вывести массивuint64_t Out[256] где i-е ...

ТОП публикаций

3 ответа

 меньший диапазон. Это тот же трюк в обратном порядке, который вы используете для log (x): извлеките экспоненту ввода, чтобы получить log2 (integer_part (x)).

эффективное (быстрое) приближение экспоненциальной функции, работающей с элементами AVX (плавающая точка одинарной точности). А именно -__m256 _mm256_exp_ps( __m256 x ) без SVML. Относительная точность должна быть примерно равна ~ 1e-6 или ~ 20 ...

1 ответ

 директивы ассемблера (16-битные блоки) вместо

ли (быстрый) способ выполнить биты, обратные 32-битным значениям int в регистре avx2? Например. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 //register contains ...

2 ответа

re: константы: если вы тестируете в цикле, хороший компилятор поднимет нагрузку большинства из них (в регистры вне цикла), поэтому не имеет значения, находятся они рядом со столом или нет. Если они не все подходят, то некоторые должны будут оставаться горячими в кеше.

х__m256d _mm256_log2_pd (__m256d a) недоступна на других компиляторах, кроме Intel, и они говорят, что его производительность ограничена на процессорах AMD. В Интернете есть несколько реализаций, указанных вОтсутствует встроенная логика AVX ...

0 ответов

 Набор инструкций.

с:Какова наиболее эффективная последовательность для генерации набора из 3-х элементов из памяти? Если память устроена так: MEM = R0 G0 B0 R1 G1 B1 R2 G2 B2 R3 G3 B3 ...Мы хотим получить три регистра YMM, где: YMM0 = R0 R1 R2 R3 R4 R5 R6 R7 ...

3 ответа

Могу ли я использовать AVX FMA для точного 52-битного умножения?

AXV2 не имеет целочисленных умножений с источниками больше 32-битных. Это действительно предлагает32 х 32 -&gt; 32 умножается, а также32 х 32 -&gt; 64 умножа...

1 ответ

Авто-векторизация сравнения

2 ответа

Какая минимальная версия OS X для использования с AVX / AVX2?