Результаты поиска по запросу "intel"

1 ответ

GCC компилирует ведущий нулевой счет плохо, если не указан Haswell

0 ответов

Как именно запланированы x86-мопы?

Современные процессоры x86 разбивают входящий поток команд на микрооперации1), а затем запланировать эти мопыне работает как их входы становятся готовыми. Хо...

1 ответ

Почему этот код SSE в 6 раз медленнее без VZEROUPPER на Skylake?

Я пытался выяснить проблему с производительностью в приложении и, наконец, сузил ее до действительно странной проблемы. Следующий фрагмент кода работает в 6 ...

ТОП публикаций

1 ответ

О, понял это сейчас. Я использовал неправильный метод!

2 ответа

Честно говоря, для многих других ISA ваши «между 1 и 100» в итоге оказались почти «ровно 1», и даже в случае с Intel x86 это «всего 2», поэтому вполне справедливо задаться вопросом, как возникли оба синтаксиса.

0 ответов

 этот цикл для половины регистра. Практически каждая инструкция AVX2 работает на все 8 поплавков.

3 ответа

CL_DEVICE_NOT_AVAILABLE с использованием процессора Intel Core 2 Duo E8500

Я получаю ошибкуCL_DEVICE_NOT_AVAILABLE при бегеэтот пример кода [https://stackoverflow.com/q/15499533/1397061], Однако, в отличие от этого вопроса, мой процессор, процессор Intel Core 2 Duo E8500, ...

1 ответ

Относительно «Нет доступной информации»: эти другие столбцы заполняются после выполнения шага анализа структуры доступа к памяти. Вы можете сделать это с вашей последней аннотированной версией просто отлично

2 ответа

 для рабочего кода.

от вопрос уже есть ответ здесь:Получить количество тактов процессора? 4 ответаЯ успешно написал несколько встроенных ассемблеров в gcc, чтобы они вращались в...

1 ответ

Спасибо за ваш ответ. Я думал то же самое о распределении LFB для промахов L1D. Я вставляю копии нескольких строк из Руководства по оптимизации Intel. «Промах L1D создает запись в 16-ти элементном супер-очереди и выделяет буфер заполнения строки. Если строка найдена в кэше L2, она передается в кэш данных L1, и команда доступа к данным может обслуживаться. Задержка загрузки от L2 CACHE составляет 10 циклов, что приводит к снижению производительности примерно в 6 циклов, разнице в эффективных задержках L2 CACHE и L1D "

аю этот вопрос о Haswell Microarchitetcure (процессор Intel Xeon E5-2640-v3). Из спецификаций процессора и других ресурсов я узнал, что существует 10 LFB, а размер супер-очереди равен 16. У меня есть два вопроса, связанных с LFB ...