OpenCV CUDA运行速度比OpenCV CPU慢

OpenCV CUDA running slower than OpenCV CPU

本文关键字：OpenCV CPU 速度 CUDA 运行更新时间：2023-10-16

当我从avi文件中读取视频时，我一直在努力获得OpenCV CUDA来提高诸如侵蚀/扩张，帧差等性能。通常我在GPU (580gtx)上获得的FPS是CPU (AMD 955BE)的一半。在你问我是否正确测量fps之前，你可以用肉眼清楚地看到GPU上的延迟，特别是当使用高侵蚀/膨胀水平时。

似乎我没有在平行的框架中阅读??下面是代码:

#include <opencv2/imgproc/imgproc.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/video/tracking.hpp>
#include <opencv2/gpu/gpu.hpp>
#include <stdlib.h>
#include <stdio.h>
using namespace cv;
using namespace cv::gpu;
Mat cpuSrc;
GpuMat src, dst;
int element_shape = MORPH_RECT;
//the address of variable which receives trackbar position update
int max_iters = 10;
int open_close_pos = 0;
int erode_dilate_pos = 0;
// callback function for open/close trackbar
void OpenClose(int)
{
     IplImage disp;
     Mat temp;
    int n = open_close_pos - max_iters;
    int an = n > 0 ? n : -n;
    Mat element = getStructuringElement(element_shape, Size(an*2+1, an*2+1), Point(an, an) );
    if( n < 0 )
        cv::gpu::morphologyEx(src, dst, CV_MOP_OPEN, element);
    else
        cv::gpu::morphologyEx(src, dst, CV_MOP_CLOSE, element);
    dst.download(temp);
    disp = temp;    
   // cvShowImage("Open/Close",&disp);
}
// callback function for erode/dilate trackbar
void ErodeDilate(int)
{
     IplImage disp;
     Mat temp;
    int n = erode_dilate_pos - max_iters;
    int an = n > 0 ? n : -n;
    Mat element = getStructuringElement(element_shape, Size(an*2+1, an*2+1), Point(an, an) );
    if( n < 0 )
        cv::gpu::erode(src, dst, element);
    else
        cv::gpu::dilate(src, dst, element);
    dst.download(temp);
    disp = temp;    
    cvShowImage("Erode/Dilate",&disp);
}

int main( int argc, char** argv )
{
    VideoCapture capture("TwoManLoiter.avi");
    //create windows for output images
    namedWindow("Open/Close",1);
    namedWindow("Erode/Dilate",1);
    open_close_pos = 3;
    erode_dilate_pos = 0;
    createTrackbar("iterations", "Open/Close",&open_close_pos,max_iters*2+1,NULL);
    createTrackbar("iterations", "Erode/Dilate",&erode_dilate_pos,max_iters*2+1,NULL);
    for(;;)
    {
         capture >> cpuSrc;
         src.upload(cpuSrc);
         GpuMat grey;
         cv::gpu::cvtColor(src, grey, CV_BGR2GRAY); 
         src = grey;
        int c;
        ErodeDilate(erode_dilate_pos);
        c = cvWaitKey(25);
        if( (char)c == 27 )
            break;
    }
    return 0;
}

CPU实现是相同的，只是使用命名空间cv::gpu和Mat而不是gpu。

谢谢

我的猜测是，GPU侵蚀/扩张带来的性能收益被每帧从GPU传输图像的内存操作所抵消。请记住，内存带宽是GPGPU算法的关键因素，CPU和GPU之间的带宽更是如此。

EDIT:为了优化它，你可以编写自己的图像显示例程(而不是cvShowImage)，它使用OpenGL，只是将图像显示为OpenGL纹理。在这种情况下，你不需要将处理后的图像从GPU读取回CPU，你可以直接使用OpenGL纹理/缓冲区作为CUDA图像/缓冲区，所以你甚至不需要在GPU内部复制图像。但在这种情况下，你可能不得不自己管理CUDA资源。使用这种方法，您还可以使用pbo将视频上传到纹理中，并从异步中获益。