Более быстрая целочисленная незанятая загрузка SSE, которая редко используется [дубликат]

Question

Jul 14, 2016, 11:33 AM

Более быстрая целочисленная незанятая загрузка SSE, которая редко используется [дубликат]

На этот вопрос уже есть ответ здесь:

в чем разница между _mm256_lddqu_si256 и _mm256_loadu_si256 1 ответ

Я хотел бы узнать больше о_mm_lddqu_si128свойственный (lddqu инструкция с SSE3) особенно по сравнению с_mm_loadu_si128 встроенный (инструкция movdqu начиная с SSE2).

Я только обнаружил_mm_lddqu_si128 сегодня. Внутренний гид Intel говорит

эта внутренняя функция может работать лучше, чем _mm_loadu_si128, когда данные пересекают границу строки кэша

а такжекомментарий говорит Это

будет работать лучше при определенных обстоятельствах, но никогда не будет хуже.

Так почему же он не используется больше (SSE3 - довольно низкая планка, поскольку он есть у всех процессоров Core2)? Почему он может работать лучше, когда данные пересекают строку кэша? Являетсяlddqu только возможно лучше на определенном подмножестве процессоров. Например. до Нехалема?

Я понимаю, что могу прочитать руководство Intel, чтобы найти ответ, но думаю, что этот вопрос может быть интересен другим людям.

Более быстрая целочисленная незанятая загрузка SSE, которая редко используется [дубликат]

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Более быстрая целочисленная незанятая загрузка SSE, которая редко используется [дубликат]

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы