Результаты поиска по запросу "avx"

3 ответа

Оптимальное растровое изображение uint8_t в 8 * 32-битный SIMD-вектор «bool»

Как часть алгоритма сжатия, я ищу оптимальный способ достижения следующего:У меня есть простое растровое изображение в

4 ответа

горизонтальная сумма 8 упакованных 32-битных чисел

Если у меня есть 8 упакованных 32-битных чисел с плавающей запятой (__m256), какой самый быстрый способ извлечь горизонтальную сумму всех 8 элементов? Точно так же, как получить горизонтальный максимум и минимум? Другими словами, какова лучшая ...

1 ответ

 это 2 мопс. (И вызывает остановку перехода SSE / AVX на Haswell, но не Skylake). Кроме того, все эти операции являются частью цепочки зависимостей для изменяемого регистра, в отличие от установки значения в другом регистре и смешивания.

состоит в том, что я хотел бы собрать возвращенные значенияdouble в векторный регистр для обработки для машиныimm width вовремябезСохранение обратно в память первым. Конкретная обработка являетсяvfma с двумя другими операндами, ...

ТОП публикаций

5 ответов

SSE-copy, AVX-copy и std :: copy производительность

Я пытался улучшить производительность операции копирования через SSE и AVX: #include <immintrin.h> const int sz = 1024; float *mas = (float *)_mm_malloc(sz*sizeof(float), 16); float *tar = (float *)_mm_malloc(sz*sizeof(float), 16); float a=0; ...

1 ответ

Самый эффективный способ получить __m256 горизонтальных сумм из 8 исходных __m256 векторов

Я знаю как подвести итог

1 ответ

Оболочка для `__m256`, создающая ошибку сегментации с помощью конструктора - Windows 64 + MinGW + AVX

У меня есть профсоюз, который выглядит так

2 ответа

Скаттер присущие в AVX

Я не могу найти их в Intel Intrinsic Guide v2.7. Вы знаете, поддерживают ли их наборы инструкций AVX или AVX2?

2 ответа

FLOPS за цикл для песчаного моста и скважины SSE2 / AVX / AVX2

Я не понимаю, сколько флопов за такт на ядро можно сделать с помощью Sandy-Bridge и Haswell. Насколько я понимаю, с SSE должно быть 4 флопа на такт на ядро д...

3 ответа

Как выполнить поэлементное смещение влево с помощью __m128i?

1 ответ

AVX: выравнивание данных: сбой хранилища, хранилище, загрузка, загрузка не

Я модифицирую RNNLM нейронную сеть для изучения языковой модели. Однако, учитывая размер моего корпуса, он работает очень медленно. Я пытался оптимизировать ...