Obliczanie osiągniętej przepustowości i flopów / Gflops oraz ocena wydajności jądra CUDA

Większość artykułów pokazuje klapy / Gflops i osiąga przepustowość dla swoich jąder CUDA. Przeczytałem również odpowiedzi na temat stackoverflow dla następujących pytań:

Jak oceniać wydajność CUDA?

Jak profilujesz i optymalizujesz jądra CUDA?

Jak obliczyć Gflops jądra

Liczenie FLOPS / GFLOPS w programie - CUDA

Jak obliczyć uzyskaną przepustowość jądra CUDA

Większość rzeczy wydaje się w porządku, ale wciąż nie czuję się komfortowo w obliczaniu tych rzeczy. Czy każdy może napisać proste jądro CUDA? Następnie podaj wyjście urządzeniaQuery. Następnie oblicz krok po kroku klapy / Gflops i osiągnij przepustowość dla tego jądra. Następnie pokaż wyniki Visual Profiler dla tego jądra. To znaczy. pokaż szczegółowo wyniki ze wszystkimi informacjami uzyskanymi krok po kroku dla tego prostego jądra CUDA. Byłoby to bardzo pomocne dla większości z nas. Dzięki!

questionAnswers(2)

yourAnswerToTheQuestion