Расчет производительности CUFFT
Я использую CUFFT на блоках (N * N / p), разделенных на несколько графических процессоров, и у меня есть вопрос относительно расчета производительности. Для начала немного о том, как я это делаю:
Отправлять N * N / p куски на каждый GPUПакетное 1-D FFT для каждой строки в p графических процессорахПолучить N * N / p чанков обратно на хост - выполнить транспонирование для всего набора данныхТо же Шаг 1То же Шаг 2Gflops = ( 1e-9 * 5 * N * N *lg(N*N) ) / execution time
и время выполнения рассчитывается как:
execution time = Sum(memcpyHtoD + kernel + memcpyDtoH times for row and col FFT for each GPU)
Это правильный способ оценки производительности CUFFT на нескольких графических процессорах? Есть ли другой способ представить производительность FFT?
Благодарю.