Версии GPU алгоритмов OpenCV медленнее, чем версии CPU на моем компьютере?
Пытаясь ускорить простой алгоритм с использованием графического процессора с OpenCV, я заметил, что на моей машине (Ubuntu 12.10, NVidia 9800GT, Cuda 4.2.9, g ++ 4.7.2) версия графического процессора на самом деле медленнее, чем версия процессора. Я проверил с помощью следующего кода.
#include
#include
#include
#include
int main()
{
using namespace cv;
using namespace std;
Mat img1(512, 512, CV_32FC3, Scalar(0.1f, 0.2f, 0.3f));
Mat img2(128, 128, CV_32FC3, Scalar(0.2f, 0.3f, 0.4f));
Mat img3(128, 128, CV_32FC3, Scalar(0.3f, 0.4f, 0.5f));
auto startCPU = chrono::high_resolution_clock::now();
double resultCPU(0.0);
cout < "CPU ... " < flush;
for (int y(0); y < img2.rows; ++y)
{
for (int x(0); x < img2.cols; ++x)
{
Mat roi(img1(Rect(x, y, img2.cols, img2.rows)));
Mat diff;
absdiff(roi, img2, diff);
Mat diffMult(diff.mul(img3));
Scalar diffSum(sum(diff));
double diffVal(diffSum[0] + diffSum[1] + diffSum[2]);
resultCPU += diffVal;
}
}
auto endCPU = chrono::high_resolution_clock::now();
auto elapsedCPU = endCPU - startCPU;
cout < "done. " < resultCPU < " - ticks: " < elapsedCPU.count() < endl;
gpu::GpuMat img1GPU(img1);
gpu::GpuMat img2GPU(img2);
gpu::GpuMat img3GPU(img3);
gpu::GpuMat diffGPU;
gpu::GpuMat diffMultGPU;
gpu::GpuMat sumBuf;
double resultGPU(0.0);
auto startGPU = chrono::high_resolution_clock::now();
cout < "GPU ... " < flush;
for (int y(0); y < img2GPU.rows; ++y)
{
for (int x(0); x < img2GPU.cols; ++x)
{
gpu::GpuMat roiGPU(img1GPU, Rect(x, y, img2GPU.cols, img2GPU.rows));
gpu::absdiff(roiGPU, img2GPU, diffGPU);
gpu::multiply(diffGPU, img3GPU, diffMultGPU);
Scalar diffSum(gpu::sum(diffMultGPU, sumBuf));
double diffVal(diffSum[0] + diffSum[1] + diffSum[2]);
resultGPU += diffVal;
}
}
auto endGPU = chrono::high_resolution_clock::now();
auto elapsedGPU = endGPU - startGPU;
cout < "done. " < resultGPU < " - ticks: " < elapsedGPU.count() < endl;
}