Результаты поиска по запросу "sse"

1 ответ

Неоптимизированный макро-путь связан с тем, что некоторые инструкции требуют немедленного постоянного аргумента, который в противном случае было бы проблематичным получить при -O0 (необходимо встроить функцию, а затем распространить значение).

инство компиляторов C ++ поддерживают инструкции SIMD (SSE / AVX) с такими интрижками, как _mm_cmpeq_epi32Моя проблема в том, что эта функция не помечена какconstexprхотя "семантически" нет причин, чтобы эта функция неconstexpr так как это ...

1 ответ

 и опусти до 4.

аюсь написать сжатие потока (взять массив и избавиться от пустых элементов) с внутренними SIMD. Каждая итерация цикла обрабатывает 8 элементов одновременно (ширина SIMD). Благодаря встроенным функциям SSE я могу сделать это довольно эффективно ...

1 ответ

SSE загружает целые в __m128

Каковы особенности GCC для загрузки 4ints в__m128 и 8 дюймов в__m256 (Выровнены / невыровненной)? Что оunsigned ints?

ТОП публикаций

1 ответ

_mm_shuffle_ps () эквивалент для целочисленных векторов (__m128i)?

_mm_shuffle_ps() intrinsic позволяет чередовать входы с плавающей запятой в низкие 2 поплавка и высокие 2 поплавка выхода. Например: R = _mm_shuffle_ps(L1, H1, _MM_SHUFFLE(3,2,3,2))приведет к: R[0] = L1[2]; R[1] = L1[3]; R[2] = H1[2]; R[3] = ...

1 ответ

SSE Билинейная интерполяция

Я использую билинейную интерполяцию в тесном цикле и пытаюсь оптимизировать ее с помощью SSE, но при этом я получаю нулевое ускорение. Вот код, версия без SIMD использует простую векторную структуру, которая может быть определена какstruct Vec3f ...

1 ответ

SSE регистрация возврата с отключенным SSE

Я нахожусь в следующей ситуации: Я пишу код для ядра, которое не позволяет инструкции SSEМне нужно сделать арифметику с плавающей точкойЯ компилирую для платформы x86_64Вот пример кода, который иллюстрирует проблему: int main(int argc, char** ...

1 ответ

Лучший способ загрузить 64-битное целое число в регистр SSE2 двойной точности?

Каков наилучший / самый быстрый способ загрузки 64-битного целочисленного значения вxmm SSE2 зарегистрироваться в 32-битном режиме? В 64-битном режимеcvtsi2sd можно использовать, но в 32-битном режиме он поддерживает только 32-битные целые ...

1 ответ

Успешная компиляция инструкции SSE с помощью qmake (но SSE2 не распознается)

Я пытаюсь скомпилировать и запустить мой код перенесен из Unix в Windows. Мой код - чистый C ++ и не использует классы Qt. это нормально в Unix. Я также использую Qt Creator в качестве IDE иqmake.exe с участием-spec win32-g++ для компиляции. Как ...

1 ответ

C ++ SSE реализация фильтра

Я пытался использовать SSE, чтобы сделать операцию 4 пикселей. У меня проблема с загрузкой данных изображения в __m128. Мои данные изображения представляют собой буфер символов. Допустим, мое изображение 1024 x1024. Мой фильтр 16х16. __m128 ...

1 ответ

параллельная префиксная (накопительная) сумма с SSE

Я ищу несколько советов о том, как сделать параллельную сумму префикса с SSE. Я заинтересован в том, чтобы делать это на массиве целых чисел, чисел с плавающей точкой или двойных чисел. Я придумал два решения. Особый случай и общий случай. В ...