Convertir la octava para usar CuBLAS

Me gustaría convertir Octave para usar CuBLAS para la multiplicación de matrices. Este video parece indicar que esto es tan simple como escribir 28 caracteres:

Usando la biblioteca CUDA para acelerar las aplicaciones

En la práctica es un poco más complejo que esto. ¿Alguien sabe qué trabajo adicional se debe hacer para hacer las modificaciones realizadas en este video compilar?

ACTUALIZAR

Aquí está el método que estoy tratando

en dMatrix.cc agregar

#include <cublas.h>

en dMatrix.cc cambiar todas las apariciones de (conservando el caso)

dgemm

a

cublas_dgemm

en mi conjunto de terminales de compilación

export CC=nvcc
export CFLAGS="-lcublas -lcudart"
export CPPFLAGS="-I/usr/local/cuda/include"
export LDFLAGS="-L/usr/local/cuda/lib64"

el error que recibo es:

libtool: link: g++ -I/usr/include/freetype2 -Wall -W -Wshadow -Wold-style-cast 
-Wformat -Wpointer-arith -Wwrite-strings -Wcast-align -Wcast-qual -g -O2
-o .libs/octave octave-main.o  -L/usr/local/cuda/lib64 
../libgui/.libs/liboctgui.so ../libinterp/.libs/liboctinterp.so 
../liboctave/.libs/liboctave.so -lutil -lm -lpthread -Wl,-rpath
-Wl,/usr/local/lib/octave/3.7.5

../liboctave/.libs/liboctave.so: undefined reference to `cublas_dgemm_'

Respuestas a la pregunta(3)

Su respuesta a la pregunta