Более быстрая целочисленная незанятая загрузка SSE, которая редко используется [дубликат]

На этот вопрос уже есть ответ здесь:

в чем разница между _mm256_lddqu_si256 и _mm256_loadu_si256 1 ответ

Я хотел бы узнать больше о_mm_lddqu_si128свойственный (lddqu инструкция с SSE3) особенно по сравнению с_mm_loadu_si128 встроенный (инструкция movdqu начиная с SSE2).

Я только обнаружил_mm_lddqu_si128 сегодня. Внутренний гид Intel говорит

эта внутренняя функция может работать лучше, чем _mm_loadu_si128, когда данные пересекают границу строки кэша

а такжекомментарий говорит Это

будет работать лучше при определенных обстоятельствах, но никогда не будет хуже.

Так почему же он не используется больше (SSE3 - довольно низкая планка, поскольку он есть у всех процессоров Core2)? Почему он может работать лучше, когда данные пересекают строку кэша? Являетсяlddqu только возможно лучше на определенном подмножестве процессоров. Например. до Нехалема?

Я понимаю, что могу прочитать руководство Intel, чтобы найти ответ, но думаю, что этот вопрос может быть интересен другим людям.

Ответы на вопрос(1)

Ваш ответ на вопрос