Suchergebnisse für Anfrage "cublas"
Finden Sie max / min in CUDA, ohne es an die CPU weiterzuleiten
Ich muss den Index des maximalen Elements in einem Array von Floats finden. Ich benutze die Funktion "cublasIsamax", aber dies gibt den Index an di...
Cuda: Least-Square-Lösung, geringe Geschwindigkeit
Kürzlich habe ich Cuda benutzt, um einen Algorithmus namens 'Orthogonal Matching Pursuit' zu schreiben. In meinem hässlichen Cuda-Code dauert die gesamte Iteration 60 Sekunden und Eigen lib nur 3 Sekunden ... In meiner Codematrix A ist ...
CUBLAS: Falsche Inversion für Matrix mit Pivot Null
Seit CUDA 5.5 enthält die CUBLAS-Bibliothek Routinen für die stapelweise Faktorisierung und Inversion von Matrizen ...
Segmentierungsfehler beim Übergeben des Gerätezeigers an cublasSnrm2
Der folgende Code von cublas gibt uns die Fehler: core dumped während "cublasSnrm2 (handle, row, dy, incy, de)", könnten Sie einen Rat geben? main.cu #include <iostream> #include "cublas.h" #include "cublas_v2.h" #include "helper_cuda.h" using ...
Matrix-Vektor-Multiplikation in CUDA: Benchmarking & Performance
Ich aktualisiere meine Frage mit einigen neuen Benchmarking-Ergebnissen (ich habe die Frage auch genauer umformuliert und den Code aktualisiert) ... Ich habe einen Kernel für die Matrix-Vektor-Multiplikation in CUDA C nach dem ...
thrust :: max_element langsam im Vergleich cublasIsamax - Effizientere Implementierung?
Ich benötige eine schnelle und effiziente Implementierung, um den Index des Maximalwerts in einem Array in CUDA zu finden. Dieser Vorgang muss mehrmals ausgeführt werden. Ich habe dafür ursprünglich cublasIsamax verwendet, aber es gibt leider den ...
Kopiere ein Array von Zeigern in den Gerätespeicher und zurück (CUDA)
Ich versuche, @ zu verwendcublas functioncublasSgemmBatched in meinem Spielzeugbeispiel. In diesem Beispiel ordne ich zuerst 2D-Arrays zu:h_AA, h_BB der Größe 6] 5] undh_CC der Größe 6] 1]. Danach habe ich es auf das Gerät kopiert, ...
Seite 2 von 2