块匹配优化使用x86/x64流SIMD扩展

Block Matching optimization using x86/x64 Streaming SIMD Extension

本文关键字：x64 SIMD 扩展 x86 优化更新时间：2023-10-16

这将是我发布的第一个SO问题!

    std::cout << "Hello mighty StackOverflow!" << std::endl;

我正在尝试使用英特尔的SSE4.2和/或AVX内在优化立体视觉应用程序的"块匹配"实现。我用"绝对差和"来找到最佳匹配块。在我的例子中，blockSize将是一个奇数数，例如3或5。这是我的c++代码片段:

    for (int i = 0; i < rows; ++i) {
        for (int j = 0; j < cols; ++j) {
            minS = INT_MAX;
            for (int k = 0; k <= beta; ++k) {
                S = 0;
                for (int l = i; l < i + blockSize; ++l) {
                    for (int m = j; m <= j + blockSize ; ++m) {
                        // adiff(a,b) === abs(a-b)
                        S += adiff(rImage.at<uchar>(l, m), lImage.at<uchar>(l, m + k));
                    }
                }
                if (S < minS) {
                    minS = S;
                    kStar = k;
                }
            }
            disparity.at<uchar>(i, j) = kStar;
        }
    }

我知道流式SIMD扩展包含许多指令，以方便使用SAD进行块匹配，例如_mm_mpsadbw_epu8和_mm_sad_epu8，但它们都针对blockSize s，即4,16或32。例如，这段代码来自英特尔。我的问题是，在我的应用程序blockSize是一个奇数，主要是3或5。

我考虑了以下起点:

            r0 = _mm_lddqu_si128 ((__m128i*)&rImage.at<uchar>(i, j));
            l0 = _mm_lddqu_si128 ((__m128i*)&lImage.at<uchar>(i, j));
            s0 = _mm_abs_epi8 (_mm_sub_epi8 (r0 , l0) );

但是从这里开始，我不知道从s0中总结3或5个连续字节的方法!

我将感谢任何关于这个的想法。

我怀疑如果块大小只有3-5个字节x 3-5个字节，那么使用SSE或类似的指令将获得相当少的好处，因为您将花费太多的"增益"来快速进行"swizzling"(将数据从一个地方移动到另一个地方)的数学运算。

然而，查看代码，看起来您正在多次处理相同的rImage[i, j]，我认为这没有意义。