Расчет производительности CUFFT

Я использую CUFFT на блоках (N * N / p), разделенных на несколько графических процессоров, и у меня есть вопрос относительно расчета производительности. Для начала немного о том, как я это делаю:

Отправлять N * N / p куски на каждый GPUПакетное 1-D FFT для каждой строки в p графических процессорахПолучить N * N / p чанков обратно на хост - выполнить транспонирование для всего набора данныхТо же Шаг 1То же Шаг 2

Gflops = ( 1e-9 * 5 * N * N *lg(N*N) ) / execution time

и время выполнения рассчитывается как:

execution time = Sum(memcpyHtoD + kernel + memcpyDtoH times for row and col FFT for each GPU)

Это правильный способ оценки производительности CUFFT на нескольких графических процессорах? Есть ли другой способ представить производительность FFT?

Благодарю.

Ответы на вопрос(1)

Ваш ответ на вопрос