Результаты поиска по запросу "simd"

5 ответов

@ watson1180 аппроксимация рациональной функции, очевидно, медленнее, чем методы ряда Тейлора на современном оборудовании

ужна реализация с открытым исходным кодом (без ограничений по лицензии), функция журнала, что-то с подписью

1 ответ

Успешная компиляция инструкции SSE с помощью qmake (но SSE2 не распознается)

Я пытаюсь скомпилировать и запустить мой код перенесен из Unix в Windows. Мой код - чистый C ++ и не использует классы Qt. это нормально в Unix. Я также использую Qt Creator в качестве IDE иqmake.exe с участием-spec win32-g++ для компиляции. Как ...

1 ответ

stackoverflow.com/questions/41819514/...

звестная проблемачто смешивание инструкций в кодировке VEX и инструкций, не относящихся к VEX, имеет штраф, и программист должен знать об ...

ТОП публикаций

1 ответ

 директивы ассемблера (16-битные блоки) вместо

ли (быстрый) способ выполнить биты, обратные 32-битным значениям int в регистре avx2? Например. _mm256_set1_epi32(2732370386); <do something here> //binary: 10100010110111001010100111010010 => 1001011100101010011101101000101 //register contains ...

5 ответов

Более того, вы можете использовать внешние инструменты для разборки скомпилированного бинарного файла, например, objdump или более профессиональный ida.

исал некоторый код для математики, и он должен идти быстро, поэтому мне нужно использовать инструкции SSE и AVX. Я собираю его с g ++ и использую флаги-O3 а также-march=native, так что я думаю, что он использует инструкции SSE и AVX, но я не ...

3 ответа

 меньший диапазон. Это тот же трюк в обратном порядке, который вы используете для log (x): извлеките экспоненту ввода, чтобы получить log2 (integer_part (x)).

эффективное (быстрое) приближение экспоненциальной функции, работающей с элементами AVX (плавающая точка одинарной точности). А именно -__m256 _mm256_exp_ps( __m256 x ) без SVML. Относительная точность должна быть примерно равна ~ 1e-6 или ~ 20 ...

0 ответов

, gcc на x86-64 уже использует SSE / SSE2 для float / double по умолчанию, потому что ABI передает и возвращает float и double args в регистрах XMM, а не в стеке x87.

привет :) Я пытаюсь овладеть некоторыми понятиями, касающимися чисел с плавающей запятой, SIMD / математических встроенных функций и флага быстрой математики для gcc. В частности, я использую MinGW с gcc v4.5.0 на процессоре x86. Я искал вокруг ...

1 ответ

 были все операции домена вектора-int. То же самое для современных процессоров AMD.

ольно часто использовал инструкции x86 SIMD (SSE1234) в виде встроенных функций. Что меня огорчило, так это то, что в SSE ISA есть несколько простых инструкций, которые доступны только для чисел с плавающей запятой или только для целых чисел, но ...

2 ответа

 микро-слияния. Глупые, глючные инструменты с закрытым исходным кодом.) Во всяком случае, это поднимает планку еще больше, чтобы любой другой подход конкурировать.

у ускорить следующую операцию с инструкциями AVX2, но я не смог найти способ сделать это. Мне дали большой массивuint64_t data[100000] из uint64_t и массивunsigned char indices[100000] байтов. Я хочу вывести массивuint64_t Out[256] где i-е ...

1 ответ

@PeterCordes По словам Агнера, маскировка слиянием бесплатна при приземлении Рыцарей (за вычетом дополнительной зависимости). Но он не прокомментировал Скайлэйк. Я не использую маскировку достаточно, чтобы знать. Я не могу представить, что все по-другому.

тим, у вас есть значения вrax а такжеrdx Вы хотите загрузить вxmm регистр. Одним из способов будет: movq xmm0, rax pinsrq xmm0, rdx, 1Это довольно медленно, хотя! Есть ли способ лучше?