FLOPS por ciclo para ponte de areia e haswell SSE2 / AVX / AVX2

Estou confuso sobre quantos flops por ciclo por núcleo podem ser feitos com Sandy-Bridge e Haswell. Pelo que entendi, com o SSE, deve haver 4 flops por ciclo por núcleo para SSE e 8 flops por ciclo por núcleo para AVX / AVX2.

Isto parece ser verificado aqui,Como eu alcanço o máximo teórico de 4 FLOPs por ciclo? ,e aqui,Especificação de CPU Sandy-Bridge.

No entanto, o link abaixo parece indicar que Sandy-bridge pode fazer 16 fracassos por ciclo por núcleo e Haswell 32 fracassos por ciclo por núcleohttp://www.extremetech.com/computing/136219-intels-haswell-is-an-unprecedented-threat-to-nvidia-amd.

Alguém pode me explicar isso?

Edit: Eu entendo agora porque eu estava confuso. Eu achava que o termo FLOP se referia apenas ao ponto flutuante único (SP). Eu vejo agora que o teste emComo eu alcanço o máximo teórico de 4 FLOPs por ciclo? Na verdade, eles estão no ponto flutuante duplo (DP) para alcançar 4 DP FLOPs / cycle para SSE e 8 DP FLOPs / cycle para AVX. Seria interessante refazer estes testes no SP.

questionAnswers(2)

yourAnswerToTheQuestion