Convolução de Matlab usando gpu

Eu tentei a função de convolução do matlab conv2 convn com gpuArray. Por exemplo, convn (gpuArray.rand (100,100,10, 'single'), gpuArray.rand (5, 'single') e comparou com a versão da cpu convn (rand (100,100,10), rand (5)). a versão gpu é muito mais lenta que a versão cpu, especialmente perceptível quando eu coloco a função por exemplo em um loop (o que será relevante para mim) Alguém sabe uma alternativa para convolução rápida usando matlab e o gpu para kernels de filtragem relativamente pequenos de 5x5 a 14x14?

questionAnswers(1)

yourAnswerToTheQuestion