libstdc++ 并行模式快速排序的加速较差

Poor speedup with libstdc++ parallel mode quick sort

本文关键字：加速快速排序并行模式 libstdc++ 更新时间：2023-10-16

>我无法使用就地排序算法（快速排序和平衡快速排序;QS/BQS）来自libstdc++的并行实现（并行模式）。我尝试在由 16 到 24 个内核组成的许多不同的系统上运行代码。我也尝试过GNU和Intel C++编译器，即使是不同的版本，总是得到相同的结果。对于 2 和最大之间的任意数量的内核，2 左右的加速比是相同的。

相反，多路合并排序（MWMS）扩展性很好（在 16 核计算机上使用 16 个线程加速约 10）。根据 J. Singler 的演讲"GNU libstdc++ 并行模式：使用 STL 从多核中受益"，它们测量的 BQS 加速比与 MWMS 几乎相同（见第 18 页，http://ls11-www.cs.uni-dortmund.de/people/gutweng/AD08/VO11_parallel_mode_overview.pdf）;他们观察到使用 32 个线程的 BQS 加速超过 20。

知道为什么会发生这种情况或我错了什么吗？

我似乎只需调用以下内容即可解决问题：

omp_set_nested(1);

文档对此要求有点不清楚。此外，我希望库能够自行执行调用。希望这也对其他人有所帮助。