OpenMP和C++:私有变量
OpenMP and C++: private variables
我对OpenMP和c++很陌生,也许正因为如此,我遇到了一些非常基本的问题。
我试图在所有变量都是私有的情况下进行静态调度(以防万一,以验证获得的结果与非并行的结果相同)。
当我看到像bodies
这样的变量时,问题就出现了,我不知道它们来自哪里,因为它们以前没有定义过。
是否可以将所有出现的变量(如bodies
)定义为私有变量?怎么能做到
std::vector<phys_vector> forces(bodies.size());
size_t i, j; double dist, f, alpha;
#pragma omp parallel for schedule(static) private(i, j, dist, f, alpha)
for (i=0; i<bodies.size(); ++i) {
for (j = i+1; j<bodies.size(); ++j) {
dist = distance(bodies[i], bodies[j]);
if (dist > param.min_distance()) {
f = attraction(bodies[i], bodies[j], param.gravity(), dist);
alpha = angle(bodies[i],bodies[j]);
phys_vector deltaf{ f * cos(alpha) , f * sin(alpha) };
forces[i] += deltaf;
forces[j] -= deltaf;
}
}
}
return forces;
}
PS:对于当前代码,执行结果与非并行执行不同。
NoseKnowsAll已正确识别您的问题。
我想进一步解释一下为什么会出现这个问题。你可以用这样的方环来完成:
#pragma omp parallel for
for(int i=0; i<n; i++) {
if(i==j) continue;
phys_vector sum = 0;
for(int j=0; j<n; j++) {
//calculate deltaf
sum += deltaf;
}
forces[i] = sum;
}
其使用CCD_ 3迭代并且易于并行化。
但由于force(i,j) = -force(j,i)
,我们可以在一半的迭代中做到这一点,n*(n-1)/2
,使用三角形循环(这就是您所做的):
for(int i=0; i<n; i++) {
phys_vector sum = 0;
for(int j=i+1; j<n; j++) {
//calculate deltaf
sum += deltaf;
forces[j] -= deltaf;
}
forces[i] = sum;
}
问题是,当你进行这种优化时,会使外循环的并行化变得更加困难。有两个问题:写入forces[j]
,迭代不再分布良好,即第一个线程比最后一个线程运行更多的迭代。
简单的解决方案是将内环并行化
#pragma omp parallel
for(int i=0; i<n; i++) {
phys_vector sum = 0;
#pragma omp for
for(int j=i+1; j<n; j++) {
//calculate deltaf
sum += deltaf;
forces[j] -= deltaf;
}
#pragma omp critical
forces[i] += sum;
}
这使用了总共n*(n-1)/2
次迭代中的n*nthreads
次关键操作。因此,关键操作的成本随着n的增大而减小。你可以为每个线程使用一个专用的forces
向量,并将它们合并到一个关键部分,但我认为这没有必要,因为关键操作在外循环上,而不是在内循环上。
这里有一个解决方案,它融合了三角形循环,允许每个线程运行相同数量的迭代。
unsigned n = bodies.size();
unsigned r = n*(n-1)/2;
#pragma omp parallel
{
std::vector<phys_vector> forces_local(bodies.size());
#pragma omp for schedule(static)
for(unsigned k=0; k<r; k++) {
unsigned i = (1 + sqrt(1.0+8.0*k))/2;
unsigned j = i - k*(k-1)/2;
//calculate deltaf
forces_local[i] += deltaf;
forces_local[j] -= deltaf;
}
#pragma omp critical
for(unsigned i=0; i<n; i++) forces[i] += forcs_local[i];
}
我对以前融合三角形的方法不满意(因为它需要使用浮点和sqrt函数),所以我基于这个答案想出了一个简单得多的解决方案。
这将三角形映射为矩形,反之亦然。首先,我将其转换为宽度为n
但宽度为n*(n-1)/2
的矩形(与三角形相同)。然后我计算矩形的(行、列)值,然后使用以下公式映射到三角形(跳过对角线)
//i is the row, j is the column of the rectangle
if(j<=i) {
i = n - i - 2;
j = n - j - 1;
}
让我们选择一个例子。考虑以下n=5
三角环路对
(0,1), (0,2), (0,3), (0,4)
(1,2), (1,3), (1,4)
(2,3), (2,4)
(3,4)
将其映射到矩形成为
(3,4), (0,1), (0,2), (0,3), (0,4)
(2,4), (2,3), (1,2), (1,3), (1,4)
具有偶数值的三角形循环以相同的方式工作,尽管可能不那么明显。例如n = 4
。
(0,1), (0,2), (0,3)
(1,2), (1,3)
(2,3)
这就变成了
(2,3), (0,1), (0,2), (0,3)
(1,2), (1,3)
这并不完全是一个矩形,但映射的工作原理是一样的。我本可以把它映射成
(0,1), (0,2), (0,3)
(2,3), (1,2), (1,3)
它是一个矩形,但我需要两个奇数和偶数三角形大小的公式。
以下是使用矩形到三角形映射的新代码。
unsigned n = bodies.size();
#pragma omp parallel
{
std::vector<phys_vector> forces_local(bodies.size());
#pragma omp for schedule(static)
for(unsigned k=0; k<n*(n-1)/2; k++) {
unsigned i = k/n;
unsigned j = k%n;
if(j<=i) {
i = n - i - 2;
j = n - j - 1;
}
//calculate deltaf
forces_local[i] += deltaf;
forces_local[j] -= deltaf;
}
#pragma omp critical
for(unsigned i=0; i<n; i++) forces[i] += forcs_local[i];
}
需要重申的是,您的bodies
变量并不是凭空随机出现的;你应该弄清楚它在哪里声明,定义为什么。但是,因为你只访问bodies
的元素,而从不更改它们,所以这个变量无论如何都应该是shared
,所以这不是你的问题。
您的实际问题来自forces
变量。您必须确保不同线程不会更改同一j
的变量forces[j]
。如果遵循循环的逻辑,就可以确保forces[i]
只由不同的线程访问,因此它们之间没有争用。但是相同j
的forces[j]
可以很容易地通过并行i
循环的不同迭代来修改。您需要做的是按照StackOverflow链接中的一个答案来减少您的数组。
- 如何创建一个CMake变量,除非显式重写,否则使用默认值
- 将成员变量添加到共享库中的类中,不会破坏二进制兼容性吗
- 将数组的地址分配给变量并删除
- 为"adjacent"变量赋值时出现问题
- enum是C++中的宏变量还是整数变量
- 在全局变量中保存类的实例以重新创建类(创建"backup")
- 用C++中的一个变量定义一个常量
- 具有奇怪重复模板模式的派生类中的成员变量已损坏
- 你能重载对象变量名本身返回的内容吗
- 内置函数可查看CPP中的成员变量
- 是否可以初始化不可复制类型的成员变量(或基类)
- 尝试通过多个向量访问变量时,向量下标超出范围
- 试图让变量检查数组中的某些内容
- Cpp-Tuple使用带有变量的get
- 将包含C样式数组的对象初始化为成员变量(C++)
- 当vector是tje全局变量时,c++中vector的内存管理
- 通过多个头文件使用常量变量
- std::threads可以从Windows DLL中的全局变量创建/销毁吗?
- 执行函数时导致崩溃的变量
- 变量没有改变?通过向量的函数调用