优化if/else语句

C++ Optimize if/else statement

本文关键字：语句 else if 优化更新时间：2023-10-16

我编写了以下代码来模拟和简化我的应用程序中发生的事情。

在这个简化中，我有if和else分支，它们执行相同的代码，但在内存的不同部分写入。因此，我想使用一个包含两个条目的数组，并根据语句条件更新第一个或第二个条目。
这个解决方案提高了预期的速度。

但是当在执行过程中，每次迭代都有一个随机访问时，改进几乎消失了。为了显示这种奇怪的行为，我使用了模板来激活或禁用if语句和随机访问的使用，即…
useif:使用if语句时为true，使用内存访问时为false。
rand_access:当每次迭代随机访问时为true，否则为false。

#include <chrono>
#include <iostream>
#include <vector>
#include <numeric>
#include <algorithm>
#define N 1000000000
using namespace std;
using namespace std::chrono;
template <bool useif, bool rand_access>
void exec(vector<int>& V, vector<bool>& B) {
    auto start = high_resolution_clock::now();
    int sum[2], sum1 = 0, sum2 = 0;
    sum[0] = 0; sum[1] = 0;
    for ( int i = 0; i < N; i++ ) {
        const int index = (rand_access) ? V[i] : i;
        if ( useif ){
            if ( B[index] ) sum2 += V[i];
            else sum1 += V[i];
        } else
            sum[B[index]] += V[i];
    }
    auto t = std::chrono::duration_cast<milliseconds>(high_resolution_clock::now() - start);
    std::cout << "Time useif="<<useif<<", rand_access="<<rand_access<<" : " << t.count() << " ms" << std::endl;
    std::cout << (sum1+sum2+sum[0]+sum[1]) << std::endl;
}
int main() {
    vector<int> V(N);
    vector<bool> B(N, false);
    iota( V.begin(), V.end(), 0 );
    random_shuffle( V.begin(), V.end() );
    fill( B.begin(), B.begin() + B.size()/2, true);
    random_shuffle( B.begin(), B.end() );
    exec<false, false>(V, B);
    exec<false, true>(V, B);
    exec<true, false>(V, B);
    exec<true, true>(V, B); 
    return 0;
}

在我的机器上，使用c++——std=c++11 -O3 -march=native -mtune=native编译，我得到以下结果:
Time useif=0, rand_access=0: 1518 ms
Time useif=0, rand_access=1: 10791 ms
Time useif=1, rand_access=0: 4384 ms
Time useif=1, rand_access=1: 12214 ms

因此，当涉及到NOT随机访问时，将if-语句替换为内存访问会有2.8的提速，否则性能真的很接近(1.1提速)
我不明白为什么会发生这种情况，我该如何处理它，即我怎么能优化 if语句知道if和else分支正在执行相同的代码?

您用数组优化if/else是正确的。它总是给你一个改进，但改进的意义还取决于其他因素。

你的实验显示了分支消除和缓存访问优化的相对影响。

当代码按顺序访问内存时，由于引用的局部性，它利用CPU缓存优化，仅为其内存访问的一小部分"付费"。对于64字节的缓存线，对于存储在连续位置的4字节整数，它就像一个令人难以置信的"买一送十五"策略。它可以让你的CPU继续添加，很少等待内存中的数据。

当代码没有分支时，它利用CPU指令管道。在难以预测的条件下击中if会使管道失速，因此同时"飞行"的指令较少。

从带分支的随机访问到带分支的顺序访问节省7.8秒;消除分支可以为你节省额外的2.8秒。

相反，在没有顺序访问的情况下消除分支只会给您带来1.5秒的改进，因为当CPU无论如何都在等待内存时，消除管道停顿变得不那么重要了。