Результаты поиска по запросу "sse"

5 ответов

Преимущества x87 перед SSE

Я знаю, что x87 имеет более высокую внутреннюю точность, что, вероятно, является самой большой разницей, которую люди видят между ней и операциями SSE. Но я ...

2 ответа

Реверсировать регистр AVX, содержащий двойные числа, используя единственный внутренний AVX

Если у меня есть регистр AVX с 4 двойными в них, и я хочу сохранить обратное в другом регистре, возможно ли это сделать с помощью одной встроенной команды? Например: если бы у меня было 4 числа с плавающей точкой в регистре SSE, я мог бы ...

2 ответа

Как использовать инструкции Fused Multiply-Add (FMA) с SSE / AVX

Я узнал, что некоторые процессоры Intel / AMD могут выполнять одновременное умножение и добавление с помощью SSE / AVX:FLOPS за цикл для песчаного моста и ск...

ТОП публикаций

1 ответ

SSE Билинейная интерполяция

Я использую билинейную интерполяцию в тесном цикле и пытаюсь оптимизировать ее с помощью SSE, но при этом я получаю нулевое ускорение. Вот код, версия без SIMD использует простую векторную структуру, которая может быть определена какstruct Vec3f ...

0 ответов

github.com/WojciechMula/sse-popcount/blob/master/...

множения больших двоичных матриц (10Kx20K) я обычно преобразую матрицы в числа с плавающей запятой и выполняю умножение матрицы с плавающей запятой, так как умножение целочисленной матрицы выполняется довольно медленно (посмотрите ...

2 ответа

Как умножить два кватерниона с минимальными инструкциями?

Подумав немного, я придумал следующий код для умножения двух кватернионов с использованием SSE: #include <pmmintrin.h> /* SSE3 intrinsics */ /* multiplication of two quaternions (x, y, z, w) x (a, b, c, d) */ __m128 _mm_cross4_ps(__m128 ...

1 ответ

Лучший способ загрузить 64-битное целое число в регистр SSE2 двойной точности?

Каков наилучший / самый быстрый способ загрузки 64-битного целочисленного значения в

1 ответ

C ++ SSE реализация фильтра

Я пытался использовать SSE, чтобы сделать операцию 4 пикселей. У меня проблема с загрузкой данных изображения в __m128. Мои данные изображения представляют собой буфер символов. Допустим, мое изображение 1024 x1024. Мой фильтр 16х16. __m128 ...

1 ответ

Руководство по Intel Intrinsics - задержка и пропускная способность

Может ли кто-нибудь объяснить значения задержки и пропускной способности, приведенные вIntel Intrinsic Guide?Правильно ли я понял, что задержка - это количес...

2 ответа

Различные версии mmx, sse и avx дополняют друг друга или являются надмножествами друг друга?

Я думаю, что я должен ознакомиться с расширениями x86 SIMD. Но прежде чем я даже начал, я столкнулся с проблемой. Я не могу найти хороший обзор, какие из них...