Результаты поиска по запросу "simd"
Использование SIMD / AVX / SSE для обхода дерева
В настоящее время я исследую, возможно ли ускорить обход дерева Ван Эмде Боаса (или любого дерева). Учитывая один поисковый запрос в качестве входных данных, уже имеющий несколько узлов дерева в строке кэша (схема Ван Эмда Боаса), обход дерева ...
Неоптимизированный макро-путь связан с тем, что некоторые инструкции требуют немедленного постоянного аргумента, который в противном случае было бы проблематичным получить при -O0 (необходимо встроить функцию, а затем распространить значение).
инство компиляторов C ++ поддерживают инструкции SIMD (SSE / AVX) с такими интрижками, как _mm_cmpeq_epi32Моя проблема в том, что эта функция не помечена какconstexprхотя "семантически" нет причин, чтобы эта функция неconstexpr так как это ...
@PeterCordes Иногда код становится более понятным, когда вы пишете константы в виде двоичного файла. Это не тот случай, я признаю :-).
у преобразовать 8-битное целое число в массив размером 8 с каждым значением, содержащим битовое значение целого числа. Например: у меня естьint8_t x = 8; Я хочу преобразовать это вint8_t array_x = {0,0,0,0,1,0,0,0}; Это должно быть сделано ...
C ++ SSE реализация фильтра
Я пытался использовать SSE, чтобы сделать операцию 4 пикселей. У меня проблема с загрузкой данных изображения в __m128. Мои данные изображения представляют собой буфер символов. Допустим, мое изображение 1024 x1024. Мой фильтр 16х16. __m128 ...
docs.nvidia.com/cuda/cuda-math-api/...
ного гуглю, но сейчас мне неясно, могут ли некоторые графические процессоры, запрограммированные с CUDA, использовать преимущества или использовать инструкции, аналогичные тем, которые есть в расширениях SSE SIMD; например, можем ли мы ...
@PeterCordes Должен ли я превратить этот ответ в вики сообщества, чтобы вы могли вставить свой ответ здесь? К сожалению, я не могу не принять мой ответ.
у некоторыеAVX код и мне нужно загрузить из потенциально невыровненной памяти. Я сейчас загружаю 4двойникиследовательно, я бы использовал внутреннюю инструкцию _mm256, _loadu_pd [https://software.intel.com/en-us/node/524102]; код, который ...
Переменная может использоваться с обеих сторон умножения, поэтому вы должны быть особенно осторожны в отношении соглашения, которое вы используете.
ентация Apple по «Работе с матрицами» не только использует противоречие между основными столбцами и основными строками, но и усугубляет путаницу, приводя примеры «построения» матрицы преобразования и «матрицы вращения» в 2D. Перевести матрицу в ...
Сжатие разреженного массива с использованием SIMD (AVX2)
У меня есть редкий массивa (в основном нули): unsigned char a[1000000];и я хотел бы создать массивb индексов к ненулевым элементамa используя инструкции SIMD для архитектуры Intel x64 с AVX2. Я ищу советы, как сделать это эффективно. В ...
Я пытаюсь читать в регистр, а не в память ...
у_mm_extract_ps вернутьint вместоfloat? Как правильно читать сингл?float из регистра XMM в C? Или, скорее, другой способ задать это:Что противоположно_mm_set_ps инструкция?
В чем разница между vextracti128 и vextractf128?
vextracti128 а такжеvextractf128 имеют одинаковую функциональность, параметры и возвращаемые значения. Кроме того, один из них - набор инструкций AVX, а другой - AVX2. В чем разница?