为什么多线程不提供加速？

Why doesn't multi-threading offer speedup?

本文关键字：加速多线程为什么更新时间：2023-10-16

我注意到使用这个简单的示例多线程几乎总是需要更长的时间。我只是在我制作的这段代码中对其进行测试。我在 24 核处理器上使用它。似乎使用 2 个线程效果最好，3 个或更多线程比使用 1 个最差。

#include <thread>
#include <mutex>
#include <condition_variable>
#include <iostream>
using namespace std;
mutex total;
mutex coutLock;
mutex order;
long long sum=1000000000;
long long mysum=0;
const int threads=3;
long long x;
void dowork(int x,int threads) {
    long long temp=0;
    for(long long i=x*sum/threads;i<((x+1)*sum/threads);i++) {
        temp+=i;
    }
    total.lock();
    mysum+=temp;
    total.unlock(); 
}
int main() {
    thread * pool[threads];
    for(x=0;x<threads;x++) {
        thread *mine=new thread(dowork,x,threads);
        pool[x]=mine;
    }
    for(x=0;x<threads;x++) {
        pool[x]->join();
    }
    cout<<"My sum is: "<<mysum<<endl;
}

dowork() 中的循环可以简化为 O（1）代码，计算公式如下：

temp = (b - a + 1) * a + (b - a) * (b - a + 1) / 2
       where a = x * sum / threads, b = (x + 1) * sum / threads - 1

例如，clang++ 3.5.1 实际上会生成这样的代码。不幸的是，在这种情况下，计算量与线程数成正比。

你的代码太简单了，编译器可能会在单核运行中做一些优化（比如自动矢量化）。

创建新线程在某种程度上也是一个昂贵的操作，单个线程甚至可以在创建线程之前完成。程序中的常见做法是创建一些线程池，然后使用此池中的线程。它们不需要再次分配，因此在运行时使用它们的速度更快。但这并不是为了像这样一个简单的应用程序。