CUBLAS - adición de matriz ... ¿cómo?

Estoy tratando de usar CUBLAS para sumar dos grandes matrices de tamaño desconocido. Necesito un código completamente optimizado (si es posible), así que decidí no reescribir el código de adición de matriz (simple) sino usar CUBLAS, en particular la función cublasSgemm que permite sumar A y C (si B es una matriz unitaria): * C = alfa * op (A) * op (B) + beta * c *

El problema es: C y C ++ almacenan las matrices en formato de fila principal, cublasSgemm está diseñado (para mayor compatibilidad) para trabajar en formato de columna principal. Puede especificar si A y B se deben transponer primero, pero NO puede indicar que se transponga C. Por lo tanto, no puedo completar la suma de mi matriz.

No puedo transponer la matriz C por mí mismo porque la matriz es algo así como el tamaño máximo de 20000x20000.

¿Alguna idea sobre cómo resolver, por favor?

Respuestas a la pregunta(2)

Su respuesta a la pregunta