Gibt es eine Möglichkeit, Sincos-Anrufe in CUDA zu optimieren?

Ich schreibe ein Programm in CUDA, das eine große Menge von Aufrufen an diesincos() -Funktion mit doppelter Genauigkeit. Ich fürchte, dies ist einer der größten Engpässe im Code, und ich kann die Anzahl der Aufrufe der Funktion nicht reduzieren.

Gibt es eine annehmbare Annäherung ansincos in CUDA oder in einer Bibliothek, die ich importieren kann? Ich bin auch sehr besorgt über die Genauigkeit. Je besser die Annäherung ist, desto glücklicher wird mein Code.

Ich habe auch darüber nachgedacht, eine Nachschlagetabelle zu erstellen oder die Werte mit ihren Taylor-Reihen zu approximieren, aber ich möchte einige Meinungen, bevor ich diesen Weg gehe.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage