Desenrollar bucle y hacer suma independiente con vectorización
Para el siguiente ciclo, GCC solo vectorizará el ciclo si le digo que use matemáticas asociativas, p. con-Ofast
.
float sumf(float *x)
{
x = (float*)__builtin_assume_aligned(x, 64);
float sum = 0;
for(int i=0; i<2048; i++) sum += x[i];
return sum;
}
Aquí está la asamblea con-Ofast -mavx
sumf(float*):
vxorps %xmm0, %xmm0, %xmm0
leaq 8192(%rdi), %rax
.L2:
vaddps (%rdi), %ymm0, %ymm0
addq $32, %rdi
cmpq %rdi, %rax
jne .L2
vhaddps %ymm0, %ymm0, %ymm0
vhaddps %ymm0, %ymm0, %ymm1
vperm2f128 $1, %ymm1, %ymm1, %ymm0
vaddps %ymm1, %ymm0, %ymm0
vzeroupper
ret
Esto muestra claramente que el ciclo ha sido vectorizado.
Pero este ciclo también tiene una cadena de dependencia. Para superar la latencia de la adición, necesito desenrollar y hacer sumas parciales al menos tres veces en x86_64 (excluyendo Skylake que necesita desenrollarse ocho veces y haciendo la adición con instrucciones de FMA que deben desenrollarse 10 veces en Haswell y Broadwell) . Por lo que yo entiendo, puedo desenrollar el ciclo con-funroll-loops
.
Aquí está la asamblea con-Ofast -mavx -funroll-loops
.
sumf(float*):
vxorps %xmm7, %xmm7, %xmm7
leaq 8192(%rdi), %rax
.L2:
vaddps (%rdi), %ymm7, %ymm0
addq $256, %rdi
vaddps -224(%rdi), %ymm0, %ymm1
vaddps -192(%rdi), %ymm1, %ymm2
vaddps -160(%rdi), %ymm2, %ymm3
vaddps -128(%rdi), %ymm3, %ymm4
vaddps -96(%rdi), %ymm4, %ymm5
vaddps -64(%rdi), %ymm5, %ymm6
vaddps -32(%rdi), %ymm6, %ymm7
cmpq %rdi, %rax
jne .L2
vhaddps %ymm7, %ymm7, %ymm8
vhaddps %ymm8, %ymm8, %ymm9
vperm2f128 $1, %ymm9, %ymm9, %ymm10
vaddps %ymm9, %ymm10, %ymm0
vzeroupper
ret
GCC desenrolla el bucle ocho veces. Sin embargo, no hace sumas independientes. Hace ocho sumas dependientes. Eso no tiene sentido y no es mejor que sin desenrollarse.
¿Cómo puedo hacer que GCC desenrolle el bucle y haga sumas parciales independientes?
Editar:
Clang se despliega a cuatro sumas parciales independientes incluso sin-funroll-loops
para SSE pero no estoy seguro de que su código AVX sea tan eficiente. El compilador no debería necesitar-funroll-loops
con-Ofast
de todos modos, así que es bueno ver que Clang está haciendo esto al menos para SSE.
Clang 3.5.1 con-Ofast
.
sumf(float*): # @sumf(float*)
xorps %xmm0, %xmm0
xorl %eax, %eax
xorps %xmm1, %xmm1
.LBB0_1: # %vector.body
movups (%rdi,%rax,4), %xmm2
movups 16(%rdi,%rax,4), %xmm3
addps %xmm0, %xmm2
addps %xmm1, %xmm3
movups 32(%rdi,%rax,4), %xmm0
movups 48(%rdi,%rax,4), %xmm1
addps %xmm2, %xmm0
addps %xmm3, %xmm1
addq $16, %rax
cmpq $2048, %rax # imm = 0x800
jne .LBB0_1
addps %xmm0, %xmm1
movaps %xmm1, %xmm2
movhlps %xmm2, %xmm2 # xmm2 = xmm2[1,1]
addps %xmm1, %xmm2
pshufd $1, %xmm2, %xmm0 # xmm0 = xmm2[1,0,0,0]
addps %xmm2, %xmm0
retq
ICC 13.0.1 con-O3
se desenrolla a dos sumas parciales independientes. Al parecer, ICC asume matemáticas asociativas con solo-O3
.
.B1.8:
vaddps (%rdi,%rdx,4), %ymm1, %ymm1 #5.29
vaddps 32(%rdi,%rdx,4), %ymm0, %ymm0 #5.29
vaddps 64(%rdi,%rdx,4), %ymm1, %ymm1 #5.29
vaddps 96(%rdi,%rdx,4), %ymm0, %ymm0 #5.29
addq $32, %rdx #5.3
cmpq %rax, %rdx #5.3
jb ..B1.8 # Prob 99% #5.3