Результаты поиска по запросу "sse"
Неоптимизированный макро-путь связан с тем, что некоторые инструкции требуют немедленного постоянного аргумента, который в противном случае было бы проблематичным получить при -O0 (необходимо встроить функцию, а затем распространить значение).
инство компиляторов C ++ поддерживают инструкции SIMD (SSE / AVX) с такими интрижками, как _mm_cmpeq_epi32Моя проблема в том, что эта функция не помечена какconstexprхотя "семантически" нет причин, чтобы эта функция неconstexpr так как это ...
и опусти до 4.
аюсь написать сжатие потока (взять массив и избавиться от пустых элементов) с внутренними SIMD. Каждая итерация цикла обрабатывает 8 элементов одновременно (ширина SIMD). Благодаря встроенным функциям SSE я могу сделать это довольно эффективно ...
SSE загружает целые в __m128
Каковы особенности GCC для загрузки 4ints в__m128 и 8 дюймов в__m256 (Выровнены / невыровненной)? Что оunsigned ints?
_mm_shuffle_ps () эквивалент для целочисленных векторов (__m128i)?
_mm_shuffle_ps() intrinsic позволяет чередовать входы с плавающей запятой в низкие 2 поплавка и высокие 2 поплавка выхода. Например: R = _mm_shuffle_ps(L1, H1, _MM_SHUFFLE(3,2,3,2))приведет к: R[0] = L1[2]; R[1] = L1[3]; R[2] = H1[2]; R[3] = ...
SSE Билинейная интерполяция
Я использую билинейную интерполяцию в тесном цикле и пытаюсь оптимизировать ее с помощью SSE, но при этом я получаю нулевое ускорение. Вот код, версия без SIMD использует простую векторную структуру, которая может быть определена какstruct Vec3f ...
SSE регистрация возврата с отключенным SSE
Я нахожусь в следующей ситуации: Я пишу код для ядра, которое не позволяет инструкции SSEМне нужно сделать арифметику с плавающей точкойЯ компилирую для платформы x86_64Вот пример кода, который иллюстрирует проблему: int main(int argc, char** ...
Лучший способ загрузить 64-битное целое число в регистр SSE2 двойной точности?
Каков наилучший / самый быстрый способ загрузки 64-битного целочисленного значения вxmm SSE2 зарегистрироваться в 32-битном режиме? В 64-битном режимеcvtsi2sd можно использовать, но в 32-битном режиме он поддерживает только 32-битные целые ...
Успешная компиляция инструкции SSE с помощью qmake (но SSE2 не распознается)
Я пытаюсь скомпилировать и запустить мой код перенесен из Unix в Windows. Мой код - чистый C ++ и не использует классы Qt. это нормально в Unix. Я также использую Qt Creator в качестве IDE иqmake.exe с участием-spec win32-g++ для компиляции. Как ...
C ++ SSE реализация фильтра
Я пытался использовать SSE, чтобы сделать операцию 4 пикселей. У меня проблема с загрузкой данных изображения в __m128. Мои данные изображения представляют собой буфер символов. Допустим, мое изображение 1024 x1024. Мой фильтр 16х16. __m128 ...
параллельная префиксная (накопительная) сумма с SSE
Я ищу несколько советов о том, как сделать параллельную сумму префикса с SSE. Я заинтересован в том, чтобы делать это на массиве целых чисел, чисел с плавающей точкой или двойных чисел. Я придумал два решения. Особый случай и общий случай. В ...