Результаты поиска по запросу "sse"
docs.nvidia.com/cuda/cuda-math-api/...
ного гуглю, но сейчас мне неясно, могут ли некоторые графические процессоры, запрограммированные с CUDA, использовать преимущества или использовать инструкции, аналогичные тем, которые есть в расширениях SSE SIMD; например, можем ли мы ...
Теоретически вы получите хотя бы небольшую производительность, когда вычитание может быть выполнено, пока значения все еще находятся в регистрах или кэше процессора, но на практике вы можете наткнуться на несколько приемов, которые могут повысить производительность всего алгоритма.
я есть следующий код, который является узким местом в одной части моего приложения. Все, что я делаю, это вычитаю Array из другого. Оба этих массива имеют более 100000 элементов. Я пытаюсь найти способ сделать это более производительным. var ...
Последнее замечание: использование встроенного ассемблера выше зависит от gcc, причина в том, чтобы разрешить использование неинициализированных переменных без генерации предупреждения компилятора. С vc вам может понадобиться или не потребоваться сначала инициализировать переменные с помощью _mm_setzero_ps (), а затем надеяться, что оптимизатор сможет это убрать.
аюсь найти эффективный способ загрузки компиляции констант времени в регистры SSE (2/3). Я пытался сделать простой код, как это, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.0f };но это генерирует 4 инструкции movss из памяти! movss xmm0,dword ptr ...
были все операции домена вектора-int. То же самое для современных процессоров AMD.
ольно часто использовал инструкции x86 SIMD (SSE1234) в виде встроенных функций. Что меня огорчило, так это то, что в SSE ISA есть несколько простых инструкций, которые доступны только для чисел с плавающей запятой или только для целых чисел, но ...
Я думаю, что он ищет что-то большее, чем просто внутреннее (какая-то абстракция более высокого уровня, я полагаю), но не совсем понятно, что именно.
ибудь знает библиотеку с открытым исходным кодом C ++ x86 SIMD? Intel предоставляет именно то, что мне нужно, в их интегрированной библиотеке примитивов производительности, но я не могу использовать это из-за авторских прав ...
Мы вернемся к более простому C-коду для смещенных кадров. Но так как это видеокадры, это довольно редко. Кадры выровнены для байтов sse и буфера, добавленных для переполнения, поэтому это случается редко.
, чтобы оптимизировать некоторый код SSE, который я написал для преобразования YUV в RGB (как плоские, так и упакованные функции YUV). Я использую SSSE3 в данный момент, но если есть полезные функции из более поздних версий SSE, это ...
@ watson1180 аппроксимация рациональной функции, очевидно, медленнее, чем методы ряда Тейлора на современном оборудовании
ужна реализация с открытым исходным кодом (без ограничений по лицензии), функция журнала, что-то с подписью
Как рассчитать произведение векторной точки с помощью встроенных функций SSE в C
Я пытаюсь умножить два вектора вместе, где каждый элемент одного вектора умножается на элемент в том же индексе в другом векторе. Затем я хочу суммировать вс...