Результаты поиска по запросу "sse4"

3 ответа

Умножение SSE 16 x uint8_t

Я хочу умножить с SSE4__m128i объект с 16 беззнаковыми 8-битными целыми числами, но я мог найти только встроенную функцию для умножения 16-битных целых чисел. Нет ничего такого как_mm_mult_epi8?

1 ответ

SSE42 & STTNI - PcmpEstrM в два раза медленнее, чем PcmpIstrM, это правда?

Я экспериментирую с инструкциями SSE42 и STTNI и получил странный результат - PcmpEstrM(работает с явно заданными длинами строк)в два раза медленнее, чем PcmpIstrM(неявные строки длины). На моемi7 3610QMразница в том,2366,2 мс против 1202,3 мс - ...

1 ответ

_mm_testc_ps и _mm_testc_pd vs _mm_testc_si128

Как вы знаете, первые два относятся к спецификациям AVX, а вторая - к SSE4.1. Оба набора встроенных функций могут использоваться для проверки на равенство 2 векторов с плавающей точкой. Мой конкретный вариант использования: _mm_cmpeq_ps ...

ТОП публикаций

1 ответ

SSE42 & STTNI - PcmpEstrM в два раза медленнее, чем PcmpIstrM, это правда?

1 ответ

В чем разница между __popcnt () и _mm_popcnt_u32 ()?

1 ответ

Однако будущее неясно, и дело в этом хорошее, но гораздо более общее: кажется, что компиляторы и разработчики в основном не имеют никакой поддержки и не тратят много времени на размышления об этой мета-оптимизации «более высокого уровня», когда вам в основном приходится заранее определите, может ли вся ваша кодовая база (или, по крайней мере, какой-то большой кусок во время выполнения) использовать расширения A, B, C и т. д. Каждое обсуждение небольшой функции теперь должно быть обусловлено предостережением о турбо частотах, и мы не Я даже не говорил о том, как весы скользят с активными ядрами!

ой ассемблер кода Можете ли вы встроить его в C ++ и проверить по SSE4? На скорости Мне бы очень хотелось увидеть, как шагнуло в развитие SSE4. Или его совсем не беспокоит? Давайте проверим (у меня нет поддержки выше SSSE3) { sse2 strcmp ...