Результаты поиска по запросу "sse"

3 ответа

сумма перекрывающихся массивов, авто-векторизация и ограничение

У Арстечни недавно была статьяПочему некоторые языки программирования быстрее других, Он сравнивает Fortran и C и упоминает массивы суммирования. В Фортране ...

1 ответ

Сдвиг 4 целых числа вправо на разные значения SIMD

1 ответ

Как реализовать «_mm_storeu_epi64» без проблем с алиасами?

ТОП публикаций

2 ответа

Отключить функции AVX2 на процессорах, отличных от Haswell

Я написал код AVX2 для запуска на процессоре Haswell i7. Та же самая кодовая база также используется на процессорах не-Haswell, где тот же код должен быть за...

1 ответ

Однако будущее неясно, и дело в этом хорошее, но гораздо более общее: кажется, что компиляторы и разработчики в основном не имеют никакой поддержки и не тратят много времени на размышления об этой мета-оптимизации «более высокого уровня», когда вам в основном приходится заранее определите, может ли вся ваша кодовая база (или, по крайней мере, какой-то большой кусок во время выполнения) использовать расширения A, B, C и т. д. Каждое обсуждение небольшой функции теперь должно быть обусловлено предостережением о турбо частотах, и мы не Я даже не говорил о том, как весы скользят с активными ядрами!

ой ассемблер кода Можете ли вы встроить его в C ++ и проверить по SSE4? На скорости Мне бы очень хотелось увидеть, как шагнуло в развитие SSE4. Или его совсем не беспокоит? Давайте проверим (у меня нет поддержки выше SSSE3) { sse2 strcmp ...

3 ответа

Возможно ли практическое использование BigNum AVX / SSE?

Регистры SSE / AVX можно рассматривать как большие числа с целыми числами или числами с плавающей запятой. То есть можно пренебречь тем, что полосы вообще су...

4 ответа

Является ли встроенная нагрузка SSE медленнее встроенной нагрузки на процессорах Intel x64_64?

Я рассматриваю вопрос об изменении некоторого высокопроизводительного кода, который в настоящее время требует 16-байтовых выровненных массивов и использует_mm_load_ps чтобы ослабить ограничение выравнивания и использовать_mm_loadu_ps, Существует ...

1 ответ

Почему этот код SSE в 6 раз медленнее без VZEROUPPER на Skylake?

Я пытался выяснить проблему с производительностью в приложении и, наконец, сузил ее до действительно странной проблемы. Следующий фрагмент кода работает в 6 ...

2 ответа

godbolt.org/g/rt67UM

олее простое представление моей проблемы, я хочу преобразовать значение с плавающей запятой в определенный тип v4si (я хочу использовать SIMD Operation для о...

3 ответа

Как контролировать, использует ли математика C SSE2?

Я вступил в сборку трансцендентных математических функций библиотеки C с MSVC в режиме fp: strict. Кажется, что все они следуют одной и той же схеме, вот что происходит дляsin. Сначала идет процедура отправки из файла с именем ...