Parallele Implementierung für mehrere SVDs mit CUDA

Ich bin neu in der Parallelprogrammierung mit GPU und entschuldige mich, wenn die Frage weit gefasst oder vage ist. Ich bin mir bewusst, dass die CULA-Bibliothek einige parallele SVD-Funktionen enthält, aber wie sollte die Strategie aussehen, wenn eine große Anzahl relativ kleiner Matrizen zu faktorisieren ist? Zum Beispiel habe ichn Matrizen mit Dimensiond, n ist groß undd ist klein. Wie kann dieser Prozess parallelisiert werden? Könnte mir jemand einen Tipp geben?

Antworten auf die Frage(3)

Ihre Antwort auf die Frage