奇怪的指针损坏错误
C++: Weird pointer corruption error
我有以下情况:我写了一些简短的MPI测试代码,以找出哪种发送和接收操作的组合在我的代码中效果最好。
代码在我自己的计算机上运行得非常好(用8个进程测试),但是一旦我在我正在处理的集群上运行它,我得到一个损坏或双重释放指针的巨大错误输出,这是输出:http://pastebin.com/pXTRSf89
我在代码中所做的是:我调用我的通信函数100K次并测量时间。该函数如下所示。我发现,错误总是发生在相同的迭代中(大约在6K左右)。然而,报告的processorID确实发生了变化。即使我使用64个进程而不是8个,迭代也是一样的。问题是:我完全不知道,什么可能是错误的,特别是因为没有释放或分配指针。
void communicateGrid(int level, real* grid, const Subdomain& subdomain, std::vector<TimeMap>& tm_) {
tm_[level]["CommGrid"].start();
MPI_Status status[2];
MPI_Request request[2];
// x
MPI_Isend(&grid[getIndexInner(level, 1, 1, 1) + innerGridpoints_[level][0] - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 0, MPI_COMM_WORLD, &request[0]);
MPI_Isend(&grid[getIndexInner(level, 1, 1, 1)], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 1, MPI_COMM_WORLD, &request[1]);
MPI_Recv(&grid[getIndexInner(level, 1,1,1) + innerGridpoints_[level][0]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 1, MPI_COMM_WORLD, &status[0]);
MPI_Recv(&grid[getIndexInner(level, 1,1,1) - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 0, MPI_COMM_WORLD, &status[1]);
//y
MPI_Isend(&grid[getIndex(level, 0, innerGridpoints_[level][1], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 2, MPI_COMM_WORLD, &request[0]);
MPI_Isend(&grid[getIndex(level, 0, numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 3, MPI_COMM_WORLD, &request[1]);
MPI_Recv(&grid[getIndex(level, 0, innerGridpoints_[level][1] + numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 3, MPI_COMM_WORLD, &status[0]);
MPI_Recv(grid, 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 2, MPI_COMM_WORLD, &status[1]);
// z
MPI_Isend(&grid[getIndex(level, 0, 0, innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 4, MPI_COMM_WORLD, &request[0]);
MPI_Isend(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level])], 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 5, MPI_COMM_WORLD, &request[1]);
MPI_Recv(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level] + innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 5, MPI_COMM_WORLD, &status[0]);
MPI_Recv(grid, 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 4, MPI_COMM_WORLD, &status[1]);
tm_[level]["CommGrid"].stop();
}
mpiTypes_是类型MPI_Datatype*的全局变量,innerGridpoints_和numOuterGridpoints_也是全局的(我知道这不是一个很好的编码风格,但我只把它用于计时)。我很确定我的数据类型是正确的,因为它们在另一种通信函数设置中工作(例如Irecv后面跟着Send)。
最后注意:我只是试图运行这个只有一个进程。然后出现以下错误:
Rank 0 [Mon Apr 22 02:11:23 2013] [c0- 0c133n0] Fatal error inPMPI_Isend:内部MPI错误!错误堆栈:PMPI_Isend(148):MPI_Isend(buf=0x2aaaab7b531c, count=1, dtype=USER, dest=0,)tag=1, MPI_COMM_WORLD, request=0x7fffffffb4d4) failed (unknown)():内部MPI错误!_pmiu_daemon(SIGCHLD): [NID 00070] [c0- 0c133n0] [Mon Apr 22 02:11:23 2013] PE RANK 0退出信号abort
同样,这只发生在集群上,但在我的机器上有效。
我很高兴任何我可以检查或错误可能在哪里!由于
您必须等待或测试由MPI_Isend()
创建的那些MPI请求或其他东西,否则您将泄漏内部资源,并最终崩溃,这就是正在发生的事情。
Jeff Squyres在思科的博客中说得很好。
您知道这些isend正在完成,但是MPI库无法知道这一点并清理由这些MPI_Request
s分配和指向的资源。需要多少资源和什么样的资源取决于很多事情,包括底层网络连接(例如,可能占用稀缺的无限带宽资源),所以它在您自己的机器上工作而不是在集群上工作并不一定令人惊讶。
可以通过添加
来解决这个问题MPI_Waitall(2, request, status);
MPI_Isend
/MPI_Recv()
各阶段后
这不仅是清理资源所必需的,实际上对于具有非阻塞请求的程序的正确性也是必需的。
- 在C++中检测到堆损坏错误
- AMQP-CPP:TCP 处理程序中的管道损坏错误
- 与强制转换相关的堆损坏错误
- 如何修复C ++中的"堆已损坏"错误?
- 双重释放或损坏错误(找不到错误?
- 对于我的类函数,我得到双重释放或损坏错误
- 为什么我的作业操作员给出了损坏错误
- 为什么 delete[] 会导致堆损坏错误
- 为什么我的visual c++在堆栈损坏的情况下没有触发堆栈损坏错误
- c++运行程序时出现堆已损坏错误
- 范围末尾的C 双免费或损坏错误
- Vector访问中出现内存损坏错误
- C 双免费或损坏错误
- 包含链接列表的链接列表给出了堆的损坏错误:原因
- 在Windows上立即检测到堆损坏错误.如何
- 双重释放或损坏错误
- 使用删除 [] 和新(放置)运算符的可视C++堆损坏错误
- 调试 MS VC++ 2005 中的堆损坏错误
- 堆损坏错误;无法发布 cv::Mat opencv
- 使用auto_ptr时出现内存损坏错误