Почему некоторые задержки Haswell AVX объявлены Intel в 3 раза медленнее, чем Sandy Bridge?

В Intelintrinsics webapp, некоторые операции, похоже, ухудшились от Сэнди Бридж до Хасвелла. Например, многие операции вставки, такие как _mm256_insertf128_si256, показывают таблицу затрат, как показано ниже:

   Performance
 Architecture   Latency   Throughput
 Haswell        3         -
 Ivy Bridge     1         - 
 Sandy Bridge   1         - 

Я нашел эту разницу загадочной. Это различие, потому что есть новые инструкции, которые заменяют эти или что-то, что компенсирует это (какие)? Кто-нибудь знает, изменяет ли Skylake эту модель дальше?

Ответы на вопрос(1)

Ваш ответ на вопрос