cudaMemcpyToSymbol只是挂起,永远不会返回.GPU 处理速度为 100%.代码在 K40 上工作正常,但
cudaMemcpyToSymbol just hangs and never returns. GPU processing at 100%. Code works fine on K40 but not on V100
我有以下代码片段:
__constant__ int baseLineX[4000];
__constant__ int baseLineY[4000];
__constant__ int guideLineX[4000];
__constant__ int guideLineY[4000];
__constant__ int rectangleOffsets[8];
__constant__ float blurKernel[64];
<other code>
for(int i = 0; i < 8; i++)
hostRectangleOffsets[i] = i;
cudaMemcpyToSymbol(rectangleOffsets, hostRectangleOffsets, 8*sizeof(int));
此代码在特斯拉 K40 上工作正常,但在 16GB 特斯拉 V100 上无效。(甚至我的笔记本电脑也可以使用4GB Quaddro M2200 GPU运行代码(。
代码只是挂在 V100 上,永远不会从 cudaMemcpyToSymbol 调用返回,但看起来它仍在 GPU 上处理。有什么想法吗?
好吧,你还没有提供一个最小、完整、可验证的例子:你的代码不会编译并且缺少语句,但(显然(有不相关的语句。所以 - 没有人可以真正检查。
不过,我仍然可以提出一些建议:
- 尝试使用此调用的异步版本:
cudaMemcpyToSymbolAsync()
。至少你的程序不会挂起... - 首先在调试器中运行程序或应用程序(例如,nVIDIA在大多数系统上的nSight,或它们在Windows上的Visual Studio的扩展(;或者,将调试器附加到挂起进程(MSVS指令,Eclipse指令 - 旧(。
- 在启用核心转储的情况下运行进程(如果你在 Unix'ish 系统上(,在挂起时杀死它,然后在调试器中打开核心转储,你至少会得到回溯
- 尝试在启用较少优化的情况下重建程序 - 这有时会有所帮助,至少对于诊断目的(这可以与前面的建议结合使用(。
相关文章:
- C++我的数学有什么问题,为什么我的代码不能正确循环
- 代码在main()中运行,但在函数中出现错误
- 在VS代码中交叉编译Windows与Linux上的MinGW的SDL程序
- 编译包含字符串的代码时遇到问题
- 我在c++代码中生成了一个运行时#3异常
- 如何在linux终端中同时编译和运行c++代码
- 为cl.exe(Visual Studio代码)指定命令行C++版本
- 在Linux for Windows上编译C++代码时出错
- 我的字符计数代码计算错误.为什么
- 孤立代码块在结构中引发异常
- 在编译C++代码(具有dlib和opencv)到WASM时面临问题
- 为什么我的C#代码在调用回C++COM直到Task时会暂停.等待/线程.加入
- 处理小于cpu数据总线的数据类型.(c++转换为机器代码)
- 此代码是否违反一个定义规则
- 为什么我的代码在输出中增加了93天
- 我的简单if-else语句是如何无法访问的代码
- 使用动态分配的数组会导致代码分析发出虚假的C6386缓冲区溢出警告
- 为什么在这个代码结束循环中没有得到结束
- 在c代码之间共享数据的最佳方式
- cudaMemcpyToSymbol只是挂起,永远不会返回.GPU 处理速度为 100%.代码在 K40 上工作正常,但