OpenCL-Verkleinerungsergebnis bei großen Floats falsch

Ich benutzteeispiel für die zweistufige Reduzierung von A, um die Summe aller Zahlen von 0 bis 65 536 mit Gleitkomma-Genauigkeit zu berechnen. Leider ist das Ergebnis nicht korrekt. Wenn ich jedoch meinen Code so ändere, dass ich die Summe von 65.536 kleineren Zahlen (zum Beispiel 1) berechne, ist das Ergebnis korrekt.

Ich konnte keinen Fehler im Code finden. Kann es sein, dass ich aufgrund des Float-Typs falsche Ergebnisse erhalte? Wenn dies der Fall ist, wie lässt sich das Problem am besten lösen?