Результаты поиска по запросу "avx"

меньший диапазон. Это тот же трюк в обратном порядке, который вы используете для log (x): извлеките экспоненту ввода, чтобы получить log2 (integer_part (x)).

эффективное (быстрое) приближение экспоненциальной функции, работающей с элементами AVX (плавающая точка одинарной точности). А именно -__m256 _mm256_exp_ps( __m256 x ) без SVML. Относительная точность должна быть примерно равна ~ 1e-6 или ~ 20 ...

floating-point-conversion precision intel x86

1 ответ

@Zboson: GPU mandelbrot, вероятно, не о масштабировании или его полезности, а скорее о хорошо известной и простой проблеме с очень высокой вычислительной интенсивностью / низкой пропускной способностью памяти. (И цепочка зависимости данных, которая может ограничивать ILP). На этой странице были и другие ориентиры, но мне нравится Мандельброт.

ли выполнить арифметику с плавающей запятой половинной точности на чипах Intel? Я знаю, как загружать / хранить / преобразовывать числа с плавающей запятой половинной точности [1], но я не знаю, как добавить / умножить их без преобразования в ...

simd avx2 optimization x86

2 ответа

микро-слияния. Глупые, глючные инструменты с закрытым исходным кодом.) Во всяком случае, это поднимает планку еще больше, чтобы любой другой подход конкурировать.

у ускорить следующую операцию с инструкциями AVX2, но я не смог найти способ сделать это. Мне дали большой массивuint64_t data[100000] из uint64_t и массивunsigned char indices[100000] байтов. Я хочу вывести массивuint64_t Out[256] где i-е ...

ТОП публикаций

How to write controller in Odoo 12

EHR Software Development: What you need to know [SPDLoad Full Guide]

Любимый шрифт свинки Пеппы и как его сделать

10 Food Delivery Startups to Watch for in 2020

assembly sse x86

2 ответа

Эта таблица, вероятно, будет неверно предсказана в первый раз. После этого это может или не может, в зависимости от модели и силы косвенного предсказателя ветвления.

отрим следующий цикл в x86: ; on entry, rdi has the number of iterations .top: ; some magic happens here to calculate a result in rax mov [array + rdi * 8], rax ; store result in output array dec rdi jnz .topЭто просто: что-то вычисляет ...

profiling perf c++avx2

1 ответ

Удивительный ответ .. Спасибо, Питер.

аюсь профилировать мой код C ++ с помощью инструмента Perf. Реализация содержит код с инструкциями SSE / AVX / AVX2. В дополнение к этому код скомпилирован с-O3 -mavx2 -march=native флаги. я верю__memset_avx2_unaligned_erms функция ...

intrinsics c++g++

2 ответа

Отсутствует встроенная логика AVX (_mm256_log_ps) в g ++ - 4.8?

Я пытаюсь использовать некоторые встроенные функции AVX в своем коде и натолкнулся на кирпичную стену со встроенными логарифмами. Используя Intel Intrinsics Guide v3.0.1 для Linux, я вижу внутреннюю_mm256_log_ps(__m256) указан как часть ...

simd assembly micro-optimization performance

2 ответа

Использование SIMD / AVX / SSE для обхода дерева

В настоящее время я исследую, возможно ли ускорить обход дерева Ван Эмде Боаса (или любого дерева). Учитывая один поисковый запрос в качестве входных данных, уже имеющий несколько узлов дерева в строке кэша (схема Ван Эмда Боаса), обход дерева ...

c++intrinsics inline-assembly x86-64

1 ответ

это 2 мопс. (И вызывает остановку перехода SSE / AVX на Haswell, но не Skylake). Кроме того, все эти операции являются частью цепочки зависимостей для изменяемого регистра, в отличие от установки значения в другом регистре и смешивания.

состоит в том, что я хотел бы собрать возвращенные значенияdouble в векторный регистр для обработки для машиныimm width вовремябезСохранение обратно в память первым. Конкретная обработка являетсяvfma с двумя другими операндами, ...

xcode llvm gcc xcode4

1 ответ

В конце концов я взломал и скачал Xcode 4 - похоже, Clang - единственный компилятор, который может поддерживать AVX в настоящее время, хотя я не проверял его должным образом:

е чем тратить время и деньги на загрузку Xcode 4, кто-нибудь может сказать мне, поставляется ли он с версией gcc (или любым другим компилятором, например, LLVM), который поддерживает набор инструкций AVX на процессорах Sandy Bridge (т.е.gcc -mavx ...

assembly gcc simd vectorization

1 ответ

@PeterCordes Должен ли я превратить этот ответ в вики сообщества, чтобы вы могли вставить свой ответ здесь? К сожалению, я не могу не принять мой ответ.

у некоторыеAVX код и мне нужно загрузить из потенциально невыровненной памяти. Я сейчас загружаю 4двойникиследовательно, я бы использовал внутреннюю инструкцию _mm256, _loadu_pd [https://software.intel.com/en-us/node/524102]; код, который ...

Страница 7 из 9

5 678 9

Вы очень активны! Это здорово!

Результаты поиска по запросу "avx"

Популярные теги

ТОП публикаций