并行化广度优先搜索

Parallelizing a Breadth-First Search

本文关键字：广度优先搜索并行化更新时间：2023-10-16

我刚刚自学了一些OpenMP，这可能很愚蠢。基本上，我正在尝试在 c++ 中并行化广度优先搜索程序，每个节点都需要很长时间来处理。下面是一个示例代码：

queue<node*> q;
q.push(head);
while (!q.empty()) {
  qSize = q.size();
  for (int i = 0; i < qSize; i++) {
    node* currNode = q.front();
    q.pop();
    doStuff(currNode);
    q.push(currNode);
  }
}

处理函数doStuff((非常昂贵，我想并行化它。但是，如果我通过将 for 行放在 for 行之前来并行化 for 循环#pragma omp parallel for，则在运行时会弹出各种奇怪的错误。我猜原因是这样q.front()和q.push()也会并行化，多个线程可能会通过q.front()获得同一个节点(因为它们都在处理任何q.push之前被处理(。

我该如何解决这个问题？

解决方案是使用关键部分保护对队列的访问。

queue<node*> q;
q.push(head);
while (!q.empty()) {
  qSize = q.size();
  #pragma omp parallel for
  for (int i = 0; i < qSize; i++) {
    node* currNode;
    #pragma omp critical
    {
      currNode = q.front();
      q.pop();
    }
    doStuff(currNode);
    #pragma omp critical
    q.push(currNode);
  }
}

这类似于具有通用互斥锁并将其锁定。

此版本在效率方面存在一些限制：在 for 循环结束时，尽管工作在队列中，但某些线程可能会空闲。在处理队列为空但某些线程仍在计算的情况下，制作一个线程在队列中存在时持续工作的版本有点棘手。

根据节点中涉及的数据大小，缓存效应和错误共享还可能对性能产生重大影响。但这不能用具体的例子来讨论。在许多情况下，简单版本可能足够高效，但获得最佳性能可能会变得任意复杂。

在任何情况下，您都必须确保doStuff不会修改任何全局或共享状态。