openCL 内核返回垃圾值,尽管没有错误
openCL kernel returns trash value despite no errors
我一直在关注这些openCL示例。OpenCL 即使在使用 err 或内核检查错误代码时cl_int也不会给我任何错误。但是当我输出landmap_flags[i]
的结果时,它表明我只是从GPU中获取垃圾值。我可以让上面的例子工作,但是当我包含我的数据时,它开始崩溃。我也不确定landmap_flags
数组是否太大,内核无法处理?(96 * 96 * 96
uchar
的元素(。
内核代码:
// CL noise lib
.
.
.
kernel void terrain_gen(global uchar* landmap_flags, global float3* pos, int LOD, int chunkSize) {
const uint n = get_global_id(0);
const uint x = n%(chunkSize+(2 * LOD));
const uint y = (n/(chunkSize+(2 * LOD)))%(chunkSize+(2 * LOD));
const uint z = n/((chunkSize+(2 * LOD))*(chunkSize+(2 * LOD)));
enum BLOCK { STONE, DIRT, SNOW, GRASS, SAND, GRAVEL, GAETAN, BEDROCK, AIR };
const float frequency = 500;
const float noise_1 = (_slang_library_noise2(x+(chunkSize * pos[n].x),z+(chunkSize * pos[n].z))) / frequency;
landmap_flags[n] = (noise_1*noise_1*40.0f+6.0f>(y+(chunkSize * pos[n].y))) ? DIRT : AIR;
}
内核构建良好并且没有返回任何错误,但我认为我处理数据的方式可能会出现错误。
还有我设置缓冲区的代码:
// set up devices, platform, etc.
.
.
.
cl::Buffer buffer_landmap(context, CL_MEM_READ_WRITE, sizeof(cl_uchar) * 96 * 96 * 96);
cl::Buffer buffer_pos(context, CL_MEM_WRITE_ONLY | CL_MEM_HOST_NO_ACCESS | CL_MEM_COPY_HOST_PTR, sizeof(cl_float3));
cl::Buffer buffer_LOD(context, CL_MEM_WRITE_ONLY | CL_MEM_HOST_NO_ACCESS | CL_MEM_COPY_HOST_PTR, sizeof(cl_int));
cl::Buffer buffer_chunkSize(context, CL_MEM_WRITE_ONLY | CL_MEM_HOST_NO_ACCESS | CL_MEM_COPY_HOST_PTR, sizeof(cl_int));
queue.enqueueWriteBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);
queue.enqueueWriteBuffer(buffer_pos, CL_TRUE, 0, sizeof(cl_float3), pos);
queue.enqueueWriteBuffer(buffer_LOD, CL_TRUE, 0, sizeof(cl_int), LOD);
queue.enqueueWriteBuffer(buffer_chunkSize, CL_TRUE, 0, sizeof(cl_int), chunkSize);
cl::Kernel get_noise(program, "terrain_gen");
get_noise.setArg(0, buffer_landmap);
get_noise.setArg(1, buffer_pos);
get_noise.setArg(2, buffer_LOD);
get_noise.setArg(3, buffer_chunkSize);
queue.enqueueNDRangeKernel(get_noise, cl::NullRange, cl::NDRange(1024));
queue.enqueueReadBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);
queue.finish();
我打算让这段代码工作的方式是传递三个缓冲区(pos
、LOD
和chunkSize
(作为标量值,只需要将landmap_flags
返回给 CPU。可能是我对enqueueNDRangeKernel
使用了不正确的参数吗?可能是我的工作组规模太大,或者我的工作组太多。
编辑:我编辑了我的代码,标量不再作为缓冲区传递,唯一被写入和读取的是landmap_flags,内核也为此进行了编辑,以将pos视为标量值。
kernel void terrain_gen(global uchar* landmap_flags, float3 pos, int LOD, int chunkSize) {
const uint n = get_global_id(0);
const uint x = n%(chunkSize+(2 * LOD));
const uint y = (n/(chunkSize+(2 * LOD)))%(chunkSize+(2 * LOD));
const uint z = n/((chunkSize+(2 * LOD))*(chunkSize+(2 * LOD)));
enum BLOCK { STONE, DIRT, SNOW, GRASS, SAND, GRAVEL, GAETAN, BEDROCK, AIR };
const float frequency = 500;
const float noise_1 = (_slang_library_noise2(x+(chunkSize * pos.x),z+(chunkSize * pos.z))) / frequency;
landmap_flags[n] = (noise_1*noise_1*40.0f+6.0f>(y+(chunkSize * pos.y))) ? DIRT : AIR;
}
cl::Buffer buffer_landmap(context, CL_MEM_READ_WRITE, sizeof(cl_uchar) * 96 * 96 * 96);
cl::CommandQueue queue(context, default_device);
queue.enqueueWriteBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);
cl::Kernel get_noise(program, "terrain_gen");
get_noise.setArg(0, buffer_landmap);
get_noise.setArg(1, pos);
get_noise.setArg(2, LOD);
get_noise.setArg(3, chunkSize);
queue.enqueueNDRangeKernel(get_noise, cl::NullRange, cl::NDRange(96 * 96 * 96));
queue.enqueueReadBuffer(buffer_landmap, CL_TRUE, 0, sizeof(cl_uchar) * 96 * 96 * 96, landmap_flags);
queue.finish();
@doqtor在评论中的观察是正确的,这些都是非常严重的问题。
此外,我注意到以下几点:
pos
缓冲区是使用CL_MEM_HOST_NO_ACCESS
创建的,但随后对其调用enqueueWriteBuffer()
。(尽管根据您问题的文本,您实际上希望这是一个标量,而不是缓冲区?然后你的内核代码把它当作一个长向量,正如评论中指出的那样......- 你正在使用
CL_MEM_COPY_HOST_PTR
创建缓冲区,而无需传递主机指针。 - 您似乎提交了 1024 个项目的工作大小,但您的结果缓冲区是 96 * 96 * 96 = 884736 个项目,这也是您从缓冲区读取的数据量。(这个缓冲区大小很好,你不应该接近VRAM大小。
此外,你说
OpenCL 即使在使用 err 或内核检查错误代码时
cl_int
也不会给我任何错误。
鉴于在创建缓冲区时滥用标志,这似乎...不可能?由于上述问题 2,四个缓冲区创建中的三个应该失败并CL_INVALID_HOST_PTR
。我建议你再看看你的错误处理代码。(你还没有发布,所以我不能评论具体细节(
相关文章:
- 我的代码中有错误吗?使用BGI图形的C++代码对我不起作用
- 我的代码中有错误,未声明的标识符
- 分段错误(内核转储) C++面向对象编程
- C++ LeetCode #377 的 DP 解决方案中,此代码是否有错误?
- 试图建立银行管理系统,但有错误
- 有关矩阵的代码错误导致分段错误(内核转储)
- 我试图创建临时对象的方式有错误吗
- 我的随机生成器是否不工作,或者我决定人/骨架是否击中对手的方式是否有错误
- 我在OpenCV中有错误的"approxPolyDP(ROI_Vertices, ROI_Poly, 1.0, true)"
- 来自简单循环的 OpenAcc 错误:内核执行期间的非法地址
- 我在这个 C++ 代码上有错误吗?
- 是视觉C++优化器错误还是我的代码中有错误?
- 为什么一个简单的C++程序会有错误的结果?是 #define 引起的吗?
- 对此有错误
- C :数据文件有错误:预期的无限制ID
- 一个带有参数的程序,为什么此程序有错误的答案
- 仅使用boost.datetime在Windows上有错误
- 使用向量循环时,是否有错误
- Microsoft Visual Studio发现我所有的CUDA设备端函数都有错误
- 继承默认构造函数在 gcc 中失败并在 clang 中工作,哪个有错误?