Resultado de redução OpenCL incorreto com carros alegóricos grandes

eu useiExemplo de redução em dois estágios da AMD para calcular a soma de todos os números de 0 a 65 536 usando precisão de ponto flutuante. Infelizmente, o resultado não está correto. No entanto, quando modifico meu código, para calcular a soma de 65 536 números menores (por exemplo 1), o resultado está correto.

Não encontrei nenhum erro no código. É possível que eu esteja obtendo resultados incorretos devido ao tipo de flutuação? Se for esse o caso, qual é a melhor abordagem para resolver o problema?