Результаты поиска по запросу "avx"

vextracti128 а такжеvextractf128 имеют одинаковую функциональность, параметры и возвращаемые значения. Кроме того, один из них - набор инструкций AVX, а другой - AVX2. В чем разница?

intrinsics avx2

2 ответа

Скаттер присущие в AVX

Я могу'найти их в Intel Intrinsic Guide v2.7. Вы знаете, поддерживают ли их наборы инструкций AVX или AVX2?

sse simd x86

4 ответа

горизонтальная сумма 8 упакованных 32-битных чисел

Если у меня есть 8 упакованных 32-битных чисел с плавающей запятой (__m256), какой самый быстрый способ извлечь горизонтальную сумму всех 8 элементов? Точно так же, как получить горизонтальный максимум и минимум? Другими словами, какова лучшая ...

ТОП публикаций

10 Food Delivery Startups to Watch for in 2020

7 Best Telemedicine Apps In 2020

How to Build a Live Streaming Video App and Reach Founder’s Zen

19 Tools And Resources to Build an MVP From Scratch

x86 assembly sse simd

1 ответ

Каковы лучшие последовательности команд для генерации векторных констант на лету?

«Наилучший» означает наименьшее количество инструкций (или наименьшее количество мопов, если какие-либо инструкции декодируются в более чем один моп). Размер...

x86 intrinsics avx2 icc

1 ответ

Есть ли обратная инструкция к инструкции Movemask в Intel AVX2?

Инструкция (и) movemask берут __m256i и возвращают int32, где каждый бит (либо первые 4, 8 или все 32 бита в зависимости от типа входного векторного элемента) является старшим значащим битом соответствующего векторного элемента. Я хотел бы ...

intrinsics avx2

2 ответа

Скаттер присущие в AVX

Я не могу найти их в Intel Intrinsic Guide v2.7. Вы знаете, поддерживают ли их наборы инструкций AVX или AVX2?

simd x86 sse

4 ответа

Если вы не уверены, что это хорошая идея, просто сделайте ее простой и используйте одну и ту же переменную для всех 3 входов:

ое воображение, или

cpu flops intel cpu-architecture

2 ответа

FLOPS за цикл для песчаного моста и скважины SSE2 / AVX / AVX2

Я запутался в том, сколько флопов за такт на ядро можно сделать с помощью Sandy-Bridge и Haswell. Насколько я понимаю, с SSE должно быть 4 флопа на такт на ядро для SSE и 8 флопс на такт на ядро для AVX / AVX2. Это, кажется, проверено здесь,Как ...