Есть ли способ оптимизировать вызовы Sincos в CUDA?

Я пишу программу в CUDA, которая делает огромное количество звонков наsincos() функция, используя двойную точность. Боюсь, что это одно из самых больших узких мест в коде, и я не могу уменьшить количество обращений к функции.

Есть ли приличное приближение кsincos в CUDA или в библиотеке я могу импортировать? Я также весьма обеспокоен точностью, поэтому чем лучше аппроксимация, тем счастливее будет мой код.

Я также думал о создании таблицы поиска или аппроксимации значений по их рядам Тейлора, но я хочу получить некоторые мнения, прежде чем идти по этому пути.

Ответы на вопрос(1)

Ваш ответ на вопрос