Implementacja miękkiego progu CUDA

Zastanawiam się, jak należy zaimplementować ładne jądro funkcji progowania miękkie w CUDA? Funkcja miękkiego progowania jest następująca:

gdzie lambda jest progiem, a x jest wektorem wejściowym lub macierzą. Załóżmy, że oba są prawdziwe.

Wolę istniejący przykład kodu, który działa niezawodnie. Nie chcę zaczynać od zera. Czy ktoś to zrobił wcześniej? Albo wie, gdzie mogę znaleźć dobry przykładowy kod?

questionAnswers(1)

yourAnswerToTheQuestion