分支预测优化

Branch prediction optimizations

本文关键字：优化分支预测更新时间：2023-10-16

我试图了解gcc/clang对此代码进行了什么样的魔术优化。

#include <random>
#include <iostream>
int main()
{
    std::random_device rd;
    std::mt19937 mt(rd());
    const unsigned arraySize = 100000;
    int data[arraySize];
    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = mt() % 256;
    long long sum = 0;
    for (unsigned i = 0; i < 100000; ++i)
    {
        for (unsigned c = 0; c < arraySize; ++c)
        {
            if (data[c] >= 128)
                sum += data[c];
        }
    }
    std::cout << sum << std::endl;
}

和这个代码

#include <random>
#include <iostream>
#include <algorithm>
int main()
{
    std::random_device rd;
    std::mt19937 mt(rd());
    const unsigned arraySize = 100000;
    int data[arraySize];
    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = mt() % 256;
    std::sort(data, data + arraySize);
    long long sum = 0;
    for (unsigned i = 0; i < 100000; ++i)
    {
        for (unsigned c = 0; c < arraySize; ++c)
        {
            if (data[c] >= 128)
                sum += data[c];
        }
    }
    std::cout << sum << std::endl;
}

基本上，当我在大约 3 年前编译并运行时，由于更好的分支预测，第二个代码的速度提高了 4 倍。当我编译它并运行现在时，它几乎同时工作，我不知道 gcc/clang 是什么样的巫术。

这是 gcc 的输出（使用 gcc.godbolt.org，使用 -O3）

.L4: //Inner loop
    movslq  (%rax), %rdx
    movq    %rdx, %rcx
    addq    %rsi, %rdx
    cmpl    $127, %ecx
    cmovg   %rdx, %rsi
    addq    $4, %rax
    cmpq    %rdi, %rax
    jne .L4

您可以看到它进行了比较"cmpl $ 127，$ecx"，但是在比较之后它没有分支。相反，它总是添加（在比较上方的行中使用"addq"），然后根据比较使用添加的结果（感谢"cmovg"条件移动"指令）。

它避免了内部循环中的分支，因此性能不依赖于分支预测。因此，对输入进行排序没有区别（如在第二个示例中所做的那样）。