Есть ли способ оптимизировать вызовы Sincos в CUDA?
Я пишу программу в CUDA, которая делает огромное количество звонков наsincos()
функция, используя двойную точность. Боюсь, что это одно из самых больших узких мест в коде, и я не могу уменьшить количество обращений к функции.
Есть ли приличное приближение кsincos
в CUDA или в библиотеке я могу импортировать? Я также весьма обеспокоен точностью, поэтому чем лучше аппроксимация, тем счастливее будет мой код.
Я также думал о создании таблицы поиска или аппроксимации значений по их рядам Тейлора, но я хочу получить некоторые мнения, прежде чем идти по этому пути.