Calculando el rendimiento de CUFFT

Estoy ejecutando CUFFT en fragmentos (N * N / p) divididos en múltiples GPU, y tengo una pregunta sobre el cálculo del rendimiento. Primero, un poco sobre cómo lo estoy haciendo:

Envíe fragmentos N * N / p a cada GPUFFT 1-D por lotes para cada fila en p GPUs Obtenga N * N / p fragmentos de nuevo al host: realice la transposición en todo el conjunto de datosDitto Paso 1 Ídem Paso 2

Gflops = ( 1e-9 * 5 * N * N *lg(N*N) ) / execution time

y el tiempo de ejecución se calcula como:

execution time = Sum(memcpyHtoD + kernel + memcpyDtoH times for row and col FFT for each GPU)

¿Es esta la forma correcta de evaluar el rendimiento de CUFFT en múltiples GPU? ¿Hay alguna otra manera de representar el rendimiento de FFT?

Gracias

Respuestas a la pregunta(2)

Su respuesta a la pregunta