是否可以在并行区域中为共享 2D 数组创建选定元素的线程本地副本?(共享，私有，障碍:OPenMP）

Can a thread-local copy of select elements be created of a shared 2D array in a parallel region? (Shared, private, barrier: OPenMP)

本文关键字：共享副本线程障碍私有 OPenMP 并行区域是否创建数组更新时间：2023-10-16

我有一个由nxn元素组成的二维网格。在一次迭代中，我通过平均其邻居的值来计算一个元素的值。那是：

for(int i=0;i<n;i++)
for(int j=0;j<n;j++)
grid[i][j] = (grid[i-1][j] + grid[i][j-1] + grid[i+1][j] + grid[i][j+1])/4.0;

我需要运行上面的嵌套循环进行iter次迭代。我需要的是以下内容：

我需要线程来计算这个平均值，等到所有线程都完成计算，然后一次性更新网格。
具有iter次迭代的循环将按顺序运行，但在每次迭代期间，应并行计算每个i和j的grid[i][j]值。

为了做到这一点，我有以下想法和问题：

也许使网格共享，并通过仅将这 4 个元素设为线程私有来放置计算grid[i][j]所需的网格选择 4 个元素的副本。(基本上网格由所有线程共享，但每个线程中也有 4 个特定于迭代的元素的本地副本。这可能吗？
实际上是否需要barrier才能完成所有线程，然后开始下一次迭代？

我对OpenMP的思维方式非常陌生，我完全迷失在这个简单的问题中。如果有人能帮助解决我的困惑，我将不胜感激。

在实践中，您希望线程比网格点少得多，因此每个线程将计算一大堆点(例如，一行(。启动 OpenMP(或任何其他类型(线程会产生一定的开销，并且您的程序无论如何都将受内存限制而不是 CPU 限制。因此，每个网格点启动一个线程将破坏并行计算的全部目的。因此，不建议使用您的想法#1(我不太确定我是否正确理解了它;也许这不是您的建议(。
我建议(其他人在 OP 评论中也指出(您分配存储网格值所需的内存两倍，并使用在迭代之间交换的两个指针：一个指向保存以前只读迭代值的内存，另一个指向只写的新迭代值。请注意，您只会交换指针，而不会实际复制内存。迭代完成后，可以将最终结果复制到所需位置。

是的，您需要在迭代之间同步线程，但是在 OpenMP 中，这通常只需在迭代循环中打开一个并行区域(并行区域末尾有一个隐式屏障(即可隐式完成：

for (int iter = 0; iter < niter; ++iter)
{
#pragma omp parallel
{
// get range of points for current thread
// loop over thread's points and apply the stencil
}
}

或者，使用parallel for构造：

const int np = n*n;
for (int iter = 0; iter < niter; ++iter)
{
#pragma omp parallel for
for (int ip = 0; ip < np; ++ip)
{
const int i = ip / n;
const int j = ip % n;
// apply the stencil to [i,j]
}
}

第二个版本将在可用线程之间自动均匀分配工作，这很可能是您想要的。首先，您必须手动执行此操作。