Результаты поиска по запросу "sse"

2 ответа

docs.nvidia.com/cuda/cuda-math-api/...

ного гуглю, но сейчас мне неясно, могут ли некоторые графические процессоры, запрограммированные с CUDA, использовать преимущества или использовать инструкции, аналогичные тем, которые есть в расширениях SSE SIMD; например, можем ли мы ...

5 ответов

Теоретически вы получите хотя бы небольшую производительность, когда вычитание может быть выполнено, пока значения все еще находятся в регистрах или кэше процессора, но на практике вы можете наткнуться на несколько приемов, которые могут повысить производительность всего алгоритма.

я есть следующий код, который является узким местом в одной части моего приложения. Все, что я делаю, это вычитаю Array из другого. Оба этих массива имеют более 100000 элементов. Я пытаюсь найти способ сделать это более производительным. var ...

1 ответ

Последнее замечание: использование встроенного ассемблера выше зависит от gcc, причина в том, чтобы разрешить использование неинициализированных переменных без генерации предупреждения компилятора. С vc вам может понадобиться или не потребоваться сначала инициализировать переменные с помощью _mm_setzero_ps (), а затем надеяться, что оптимизатор сможет это убрать.

аюсь найти эффективный способ загрузки компиляции констант времени в регистры SSE (2/3). Я пытался сделать простой код, как это, const __m128 x = { 1.0f, 2.0f, 3.0f, 4.0f };но это генерирует 4 инструкции movss из памяти! movss xmm0,dword ptr ...

ТОП публикаций

1 ответ

 были все операции домена вектора-int. То же самое для современных процессоров AMD.

ольно часто использовал инструкции x86 SIMD (SSE1234) в виде встроенных функций. Что меня огорчило, так это то, что в SSE ISA есть несколько простых инструкций, которые доступны только для чисел с плавающей запятой или только для целых чисел, но ...

8 ответов

Я думаю, что он ищет что-то большее, чем просто внутреннее (какая-то абстракция более высокого уровня, я полагаю), но не совсем понятно, что именно.

ибудь знает библиотеку с открытым исходным кодом C ++ x86 SIMD? Intel предоставляет именно то, что мне нужно, в их интегрированной библиотеке примитивов производительности, но я не могу использовать это из-за авторских прав ...

0 ответов

Мы вернемся к более простому C-коду для смещенных кадров. Но так как это видеокадры, это довольно редко. Кадры выровнены для байтов sse и буфера, добавленных для переполнения, поэтому это случается редко.

, чтобы оптимизировать некоторый код SSE, который я написал для преобразования YUV в RGB (как плоские, так и упакованные функции YUV). Я использую SSSE3 в данный момент, но если есть полезные функции из более поздних версий SSE, это ...

5 ответов

@ watson1180 аппроксимация рациональной функции, очевидно, медленнее, чем методы ряда Тейлора на современном оборудовании

ужна реализация с открытым исходным кодом (без ограничений по лицензии), функция журнала, что-то с подписью

4 ответа

Предварительная выборка затруднительна и редко помогает.

4 ответа

Как рассчитать произведение векторной точки с помощью встроенных функций SSE в C

Я пытаюсь умножить два вектора вместе, где каждый элемент одного вектора умножается на элемент в том же индексе в другом векторе. Затем я хочу суммировать вс...

3 ответа

Что делает мой компилятор? (оптимизация memcpy)