Calculando el rendimiento de CUFFT
Estoy ejecutando CUFFT en fragmentos (N * N / p) divididos en múltiples GPU, y tengo una pregunta sobre el cálculo del rendimiento. Primero, un poco sobre cómo lo estoy haciendo:
Envíe fragmentos N * N / p a cada GPUFFT 1-D por lotes para cada fila en p GPUs Obtenga N * N / p fragmentos de nuevo al host: realice la transposición en todo el conjunto de datosDitto Paso 1 Ídem Paso 2Gflops = ( 1e-9 * 5 * N * N *lg(N*N) ) / execution time
y el tiempo de ejecución se calcula como:
execution time = Sum(memcpyHtoD + kernel + memcpyDtoH times for row and col FFT for each GPU)
¿Es esta la forma correcta de evaluar el rendimiento de CUFFT en múltiples GPU? ¿Hay alguna otra manera de representar el rendimiento de FFT?
Gracias