Результаты поиска по запросу "sse"

0 ответов

пользовательский расширенный векторный тип: например, float4 b = v.xxyz;

OpenCL, GCC и Clang имеют убедительный векторный типрасширения.Одна из функций, которые мне нравятся больше всего, - это возможность совершать извращение сле...

0 ответов

Как реализовать atoi с помощью SIMD?

Я хотел бы попытаться написать реализацию atoi с использованием инструкций SIMD, которая будет включена вRapidJSON (библиотека для чтения / записи C ++ JSON)...

0 ответов

Как эффективно выполнять двойные / int64 преобразования с SSE / AVX?

В SSE2 есть инструкции для преобразования векторов между числами с плавающей точкой одинарной точности и 32-разрядными целыми числами.

ТОП публикаций

0 ответов

Конвенция для отображения векторных регистров

0 ответов

github.com/WojciechMula/sse-popcount/blob/master/...

множения больших двоичных матриц (10Kx20K) я обычно преобразую матрицы в числа с плавающей запятой и выполняю умножение матрицы с плавающей запятой, так как умножение целочисленной матрицы выполняется довольно медленно (посмотрите ...

0 ответов

Мы вернемся к более простому C-коду для смещенных кадров. Но так как это видеокадры, это довольно редко. Кадры выровнены для байтов sse и буфера, добавленных для переполнения, поэтому это случается редко.

, чтобы оптимизировать некоторый код SSE, который я написал для преобразования YUV в RGB (как плоские, так и упакованные функции YUV). Я использую SSSE3 в данный момент, но если есть полезные функции из более поздних версий SSE, это ...

0 ответов

@IwillnotexistIdonotexist: Хорошо заметили. Я думаю, это означает, что вы можете получить одну широкую запись MMIO для смежных немаскированных элементов или две узкие. Но выполнение одного выровненного 8-байтового атомарного хранилища все же дает атомарность для 4-байтовых половинок, хотя для MMIO это не так. Поэтому я не думаю, что это исключает атомарность для каждого элемента, потому что специфичная для реализации часть может быть только объединением хранилищ элементов в более широкие и все еще атомарные хранилища.

отрим массив какatomic<int32_t> shared_array[], Что делать, если вы хотите SIMD векторизацииfor(...) sum += shared_array[i].load(memory_order_relaxed)?. Или искать в массиве первый ненулевой элемент или обнулять его диапазон? Это, вероятно, ...

0 ответов

пользовательский расширенный векторный тип: например, float4 b = v.xxyz;

OpenCL, GCC и Clang имеют убедительный векторный типрасширения [http://clang.llvm.org/docs/LanguageExtensions.html#vectors-and-extended-vectors] . Одна из функций, которые мне нравятся больше всего, - это возможность совершать извращение ...

1 ответ

В чем разница между опциями cflgs sse -msse, -msse2, -mssse3, -msse4 rtc ..? а как определить?

Для GCC

1 ответ

В чем разница между __popcnt () и _mm_popcnt_u32 ()?