Результаты поиска по запросу "sse"

3 ответа

Что делает мой компилятор? (оптимизация memcpy)

2 ответа

SSE: преобразовать короткое целое в число с плавающей точкой

Я хочу преобразовать массив беззнаковых коротких чисел для плавания с использованием SSE. Скажем __m128i xVal; // Has 8 16-bit unsigned integers __m128 y1, y2; // 2 xmm registers for 8 float valuesЯ хочу первые 4 uint16 в y1 и следующие 4 uint16 ...

2 ответа

Индексы ненулевых байтов регистра SSE / AVX

ТОП публикаций

2 ответа

, Это вызывает так называемую задержку переформатирования ".

ался изо всех сил оптимизировать некоторый код, который я использую с помощью встроенных функций sse от Microsoft. Одна из самых больших проблем при оптимизации моего кода - это LHS, возникающая всякий раз, когда я хочу использовать константу. ...

3 ответа

SSE медленнее чем FPU?

У меня есть большой кусок кода, часть тела которого содержит этот кусок кода: result = (nx * m_Lx + ny * m_Ly + m_Lz) / sqrt(nx * nx + ny * ny + 1);который я векторизовал следующим образом (все ужеfloat): __m128 r = _mm_mul_ps(_mm_set_ps(ny, ...

2 ответа

Эта таблица, вероятно, будет неверно предсказана в первый раз. После этого это может или не может, в зависимости от модели и силы косвенного предсказателя ветвления.

отрим следующий цикл в x86: ; on entry, rdi has the number of iterations .top: ; some magic happens here to calculate a result in rax mov [array + rdi * 8], rax ; store result in output array dec rdi jnz .topЭто просто: что-то вычисляет ...

1 ответ

, но он поддерживает другие встроенные функции в моем коде.

тирую следующую простую функцию

3 ответа

SSE, внутренности и выравнивание

2 ответа

docs.nvidia.com/cuda/cuda-math-api/...

ного гуглю, но сейчас мне неясно, могут ли некоторые графические процессоры, запрограммированные с CUDA, использовать преимущества или использовать инструкции, аналогичные тем, которые есть в расширениях SSE SIMD; например, можем ли мы ...

1 ответ

Не могу получить более 50% макс. теоретическая производительность по матрице умножения

проблемаЯ изучаю HPC и оптимизацию кода. Я пытаюсь воспроизвести результаты в документе умножения семенной матрицы Гото (http://www.cs.utexas.edu/users/pinga...