(OPENCV RC1）什么导致MAT乘法比每像素乘法慢20倍

(opencv rc1) What causes Mat multiplication to be 20x slower than per-pixel multiplication?

本文关键字：像素 20倍 MAT RC1 OPENCV 什么更新时间：2023-10-16

// 700 ms
cv::Mat in(height,width,CV_8UC1);
in /= 4;

用

替换

//40 ms
cv::Mat in(height,width,CV_8UC1);
for (int y=0; y < in.rows; ++y)
{
    unsigned char* ptr = in.data + y*in.step1();
    for (int x=0; x < in.cols; ++x)
    {
        ptr[x] /= 4;
    }
}

什么会导致这种行为？这是由于OpenCV"促进"垫子具有标量乘法到具有MAT乘法的垫子的原因，还是对ARM的特定失败优化？（启用了霓虹灯）。

这是一个非常古老的问题（我在几年前报告），许多基本操作都需要额外的时间。不仅是分裂，而且加法，abs等...我不知道这种行为的真正原因。更奇怪的是，应该花费更多时间（例如加工）的操作实际上非常有效。尝试这个：

addWeighted(in, 1.0/4, in, 0, 0, in);

它执行每个像素的多次操作，但运行速度比添加功能和循环实现快几次。

这是我在错误跟踪器上的报告。

通过测量CPU时间尝试了相同的尝试。

int main()
{
    clock_t startTime;
    clock_t endTime;
    int height =1024;
    int width =1024;
    // 700 ms
    cv::Mat in(height,width,CV_8UC1, cv::Scalar(255));
    std::cout << "value: " << (int)in.at<unsigned char>(0,0) << std::endl;
    cv::Mat out(height,width,CV_8UC1);
    startTime = clock();
    out = in/4;
    endTime = clock();
    std::cout << "1: " << (float)(endTime-startTime)/(float)CLOCKS_PER_SEC << std::endl;
    std::cout << "value: " << (int)out.at<unsigned char>(0,0) << std::endl;

    startTime = clock();
    in /= 4;
    endTime = clock();
    std::cout << "2: " <<  (float)(endTime-startTime)/(float)CLOCKS_PER_SEC << std::endl;
    std::cout << "value: " << (int)in.at<unsigned char>(0,0) << std::endl;
    //40 ms
    cv::Mat in2(height,width,CV_8UC1, cv::Scalar(255));
    startTime = clock();
    for (int y=0; y < in2.rows; ++y)
    {
        //unsigned char* ptr = in2.data + y*in2.step1();
        unsigned char* ptr = in2.ptr(y);
        for (int x=0; x < in2.cols; ++x)
        {
            ptr[x] /= 4;
        }
    }
    std::cout << "value: " << (int)in2.at<unsigned char>(0,0) << std::endl;
    endTime = clock();
    std::cout << "3: " <<  (float)(endTime-startTime)/(float)CLOCKS_PER_SEC << std::endl;

    cv::namedWindow("...");
    cv::waitKey(0);
}

结果：

value: 255
1: 0.016
value: 64
2: 0.016
value: 64
3: 0.003
value: 63

您看到结果有所不同，可能是因为mat.divide()确实执行了浮点划分，并舍入到了下一个。当您在更快的版本中使用整数部门时，它的速度更快，但会产生不同的结果。

此外，OPENCV计算中还有一个饱和度cast，但我猜更大的计算负载差将是双重精度划分。