c++ 11中的async(launch::async)是否为了避免昂贵的线程创建而淘汰了线程池?

Does async(launch::async) in C++11 make thread pools obsolete for avoiding expensive thread creation?

本文关键字：线程 async 创建淘汰中的 launch 是否 c++ 更新时间：2023-10-16

与这个问题有松散的关系:std::线程在c++ 11中是否有池?虽然问题不同，但意图是相同的:

问题1:使用自己的(或第三方库)线程池来避免昂贵的线程创建是否仍然有意义?

另一个问题的结论是，您不能依赖于std::thread被池化(可能是，也可能不是)。然而，std::async(launch::async)似乎有更高的机会被池化。

我不认为这是标准所强制的，但我希望所有好的c++ 11实现都能在线程创建缓慢的情况下使用线程池。只有在创建新线程成本不高的平台上，我才会期望它们总是生成一个新线程。

问题2:这正是我的想法，但我没有事实来证明。我很可能弄错了。这是有根据的猜测吗?

最后，在这里我提供了一些示例代码，首先展示了我认为如何通过async(launch::async)来表示线程创建:

示例1:

 thread t([]{ f(); });
 // ...
 t.join();

是

 auto future = async(launch::async, []{ f(); });
 // ...
 future.wait();

示例2:触发并忘记线程

 thread([]{ f(); }).detach();

是

 // a bit clumsy...
 auto dummy = async(launch::async, []{ f(); });
 // ... but I hope soon it can be simplified to
 async(launch::async, []{ f(); });

问题3:你更喜欢async版本而不是thread版本?

其余部分不再是问题的一部分，只是为了澄清:

为什么返回值必须分配给一个虚拟变量?

不幸的是，当前的c++ 11标准强制您捕获std::async的返回值，否则将执行析构函数，该析构函数将阻塞直到操作终止。有些人认为这是标准中的错误(例如，Herb Sutter)。

这个来自cppreference.com的例子很好地说明了这一点:

{
  std::async(std::launch::async, []{ f(); });
  std::async(std::launch::async, []{ g(); });  // does not run until f() completes
}

另一个澄清:

我知道线程池可能有其他合法用途，但在这个问题中，我只对避免昂贵的线程创建成本感兴趣。

我认为仍然有一些情况下线程池是非常有用的，特别是如果你需要更多地控制资源。例如，服务器可能决定同时只处理固定数量的请求，以保证快速响应时间并增加内存使用的可预测性。在这里，线程池应该没问题。

线程局部变量也可以是您自己的线程池的参数，但我不确定它在实践中是否相关:

std::thread

在由async产生的线程中，对我来说有点不清楚，因为线程可以被重用。从我的理解，线程局部变量不能保证被重置，但我可能是错误的。另一方面，如果你真的需要的话，使用你自己的(固定大小的)线程池可以让你完全控制它。

问题1:

我把这个从原来的，因为原来是错误的。在我的印象中，Linux线程的创建非常便宜，经过测试，我确定在新线程中调用函数的开销与普通线程相比是巨大的。创建一个线程来处理函数调用的开销大约比普通函数调用慢10000倍或更多。所以，如果你要发出很多小的函数调用，线程池可能是一个好主意。

很明显，随g++附带的标准c++库没有线程池。但我绝对有理由支持他们。即使有通过某种线程间队列进行调用的开销，它也可能比启动一个新线程便宜。标准允许这样做。

恕我直言，Linux内核人员应该努力使线程创建比现在更便宜。但是，标准c++库也应该考虑使用pool来实现launch::async | launch::deferred。

OP是正确的，使用::std::thread启动线程当然会强制创建一个新线程，而不是使用池中的线程。所以首选::std::async(::std::launch::async, ...)。

问题2 :

是的，基本上这"隐式"启动一个线程。但实际上，发生的事情还是很明显的。所以我真的不认为"implicit"这个词是一个特别好的词。

我也不相信强迫你在销毁之前等待返回一定是错误的。我不知道你应该使用async调用来创建不期望返回的"守护进程"线程。如果期望它们返回，那么忽略异常是不行的。

问题3 :

就我个人而言，我喜欢线程启动是显式的。我很看重那些可以保证连续访问的岛屿。否则，你最终会处于可变状态，你必须总是在某处包装一个互斥锁，并记住使用它。

我喜欢工作队列模型比"未来"模型好得多，因为有"串行岛"，所以你可以更有效地处理可变状态。

但实际上，这取决于你在做什么。

性能测试

因此，我测试了各种调用方法的性能，并在运行Fedora 29的8核(AMD Ryzen 7 2700X)系统上得到了这些数字，该系统使用clang版本7.0.1和libc++(不是libstdc++)编译:

   Do nothing calls per second:   35365257                                      
        Empty calls per second:   35210682                                      
   New thread calls per second:      62356                                      
 Async launch calls per second:      68869                                      
Worker thread calls per second:     970415

本机，在我的MacBook Pro上。(Intel(R) Core(TM) i7-7820HQ CPU @ 2.90GHz)在OSX 10.13.6下使用Apple LLVM version 10.0.0 (clang-1000.10.44.4)，我得到这个:

   Do nothing calls per second:   22078079
        Empty calls per second:   21847547
   New thread calls per second:      43326
 Async launch calls per second:      58684
Worker thread calls per second:    2053775

对于工作线程，我启动了一个线程，然后使用无锁队列向另一个线程发送请求，然后等待"It's done";

"什么都不做"只是为了测试测试线束的开销。

很明显，启动线程的开销是巨大的。即使是带有线程间队列的工作线程，在虚拟机中的Fedora 25上也会减慢20倍左右的速度，在本机OS x上大约会减慢8倍。

我创建了一个OSDN室，其中保存了用于性能测试的代码。网址:https://osdn.net/users/omnifarious/pf/launch_thread_performance/