El resultado de reducción de OpenCL es incorrecto con flotadores grandes

solíaEjemplo de reducción de dos etapas de AMD para calcular la suma de todos los números del 0 al 65 536 utilizando precisión de coma flotante. Lamentablemente, el resultado no es correcto. Sin embargo, cuando modifico mi código, de modo que calculo la suma de 65 536 números más pequeños (por ejemplo 1), el resultado es correcto.

No pude encontrar ningún error en el código. ¿Es posible que esté obteniendo resultados incorrectos, debido al tipo de flotación? Si este es el caso, ¿cuál es el mejor enfoque para resolver el problema?