是否可以在并行区域中为共享 2D 数组创建选定元素的线程本地副本?(共享,私有,障碍:OPenMP)
Can a thread-local copy of select elements be created of a shared 2D array in a parallel region? (Shared, private, barrier: OPenMP)
我有一个由n
xn
元素组成的二维网格。在一次迭代中,我通过平均其邻居的值来计算一个元素的值。那是:
for(int i=0;i<n;i++)
for(int j=0;j<n;j++)
grid[i][j] = (grid[i-1][j] + grid[i][j-1] + grid[i+1][j] + grid[i][j+1])/4.0;
我需要运行上面的嵌套循环进行iter
次迭代。 我需要的是以下内容:
- 我需要线程来计算这个平均值,等到所有线程都完成计算,然后一次性更新网格。
- 具有
iter
次迭代的循环将按顺序运行,但在每次迭代期间,应并行计算每个i
和j
的grid[i][j]
值。
为了做到这一点,我有以下想法和问题:
- 也许使网格共享,并通过仅将这 4 个元素设为线程私有来放置计算
grid[i][j]
所需的网格选择 4 个元素的副本。(基本上网格由所有线程共享,但每个线程中也有 4 个特定于迭代的元素的本地副本。这可能吗? - 实际上是否需要
barrier
才能完成所有线程,然后开始下一次迭代?
我对OpenMP的思维方式非常陌生,我完全迷失在这个简单的问题中。如果有人能帮助解决我的困惑,我将不胜感激。
-
在实践中,您希望线程比网格点少得多,因此每个线程将计算一大堆点(例如,一行(。启动 OpenMP(或任何其他类型(线程会产生一定的开销,并且您的程序无论如何都将受内存限制而不是 CPU 限制。因此,每个网格点启动一个线程将破坏并行计算的全部目的。因此,不建议使用您的想法#1(我不太确定我是否正确理解了它;也许这不是您的建议(。
-
我建议(其他人在 OP 评论中也指出(您分配存储网格值所需的内存两倍,并使用在迭代之间交换的两个指针:一个指向保存以前只读迭代值的内存,另一个指向只写的新迭代值。请注意,您只会交换指针,而不会实际复制内存。迭代完成后,可以将最终结果复制到所需位置。
-
是的,您需要在迭代之间同步线程,但是在 OpenMP 中,这通常只需在迭代循环中打开一个并行区域(并行区域末尾有一个隐式屏障(即可隐式完成:
for (int iter = 0; iter < niter; ++iter) { #pragma omp parallel { // get range of points for current thread // loop over thread's points and apply the stencil } }
或者,使用
parallel for
构造:const int np = n*n; for (int iter = 0; iter < niter; ++iter) { #pragma omp parallel for for (int ip = 0; ip < np; ++ip) { const int i = ip / n; const int j = ip % n; // apply the stencil to [i,j] } }
第二个版本将在可用线程之间自动均匀分配工作,这很可能是您想要的。首先,您必须手动执行此操作。
相关文章:
- 将成员变量添加到共享库中的类中,不会破坏二进制兼容性吗
- 在为LINUX创建共享库时,如何避免STL的私有/弱副本
- 为什么构建目录中新构建的共享库与安装目录中的副本具有不同的依赖项集?
- 将相同共享指针的副本存储在不同的向量中是否是一种好的做法?
- 是否可以在并行区域中为共享 2D 数组创建选定元素的线程本地副本?(共享,私有,障碍:OPenMP)
- 提升线程问题,当一个线程与另一个线程没有相同的副本时如何共享变量?
- 共享内存中的多索引副本
- 在实例副本之间共享的类成员
- MSVC 2017 在共享库中创建模板函数的副本
- 如何在每个共享库中使用自己的静态库副本
- 为什么主可执行文件和 dlopen 加载的共享库共享命名空间静态变量的一个副本?
- 在派生类之间复制共享变量(浅副本就足够了)
- C 模板功能,相同类型,多个实例:共享一个相同的代码副本?即使在不同的CPP/对象文件中
- 混合共享/静态库时静态成员的多个副本
- C++继承,是否可以只有共享祖父类的 1 个副本
- 我能知道调用方是否保留了共享指针的副本吗?
- 创建 boost::interprocess 共享内存对象的非共享副本
- Linux共享库中全局变量的单个副本
- gcc共享ptr副本分配实现
- cudaMemcpy2D 用于共享内存副本