设置主机和执行功能有什么区别
What is difference between setting host and executing function?
我正在尝试使用Opencl制作卷积图像。
__kernel void convolution_read4(__global uchar *in1, __global uchar* in2,
__constant float* mask, int height, int width, int kernelSize,
__local float* lMem, int localHeight, int localWidth)
{
convolution(in1, in2, mask, height, width, kernelSize, lMem, localHeight, localWidth);
convolution(in2, in1, mask, height, width, kernelSize, lMem, localHeight, localWidth);
convolution(in1, in2, mask, height, width, kernelSize, lMem, localHeight, localWidth);
}
上层代码执行相同的函数3次。
err = kernel.setArg(0, d_inputImage);
err |= kernel.setArg(1, d_outputImage);
err |= kernel.setArg(2, d_filter);
err |= kernel.setArg(3, Height);
err |= kernel.setArg(4, Width);
err |= kernel.setArg(5, kernelSize);
err |= kernel.setArg(6, localSize, NULL);
err |= kernel.setArg(7, localHeight);
err |= kernel.setArg(8, localWidth);
int totalWorkItemX = roundUp(Width - paddingPixels, wgWidth);
int totalWorkItemY = roundUp(Height - paddingPixels , wgHeight);
cl::NDRange globalws(totalWorkItemX, totalWorkItemY);
cl::NDRange localws(wgWidth, wgHeight);
err = queue.enqueueNDRangeKernel(kernel, cl::NullRange,
globalws, localws, NULL, NULL);
err = kernel.setArg(1, d_inputImage);
err |= kernel.setArg(0, d_outputImage);
err = queue.enqueueNDRangeKernel(kernel, cl::NullRange,
globalws, localws, NULL, NULL);
err = kernel.setArg(0, d_inputImage);
err |= kernel.setArg(1, d_outputImage);
err = queue.enqueueNDRangeKernel(kernel, cl::NullRange,
globalws, localws, NULL, NULL);
queue.finish();
这段代码也执行相同的函数"卷积",但内核代码是这样更改的。
__kernel void convolution_read4(__global uchar *in1, __global uchar* in2,
__constant float* mask, int height, int width, int kernelSize,
__local float* lMem, int localHeight, int localWidth)
{
convolution(in1, in2, mask, height, width, kernelSize, lMem, localHeight, localWidth);
}
我认为这两个代码是相同的代码。但第一个代码的输出错误。我不知道这两者之间有什么区别。
convolution
函数可能从全局内存中获取整个输入图像,并在全局内存中生成整个输出图像。在单个内核调用中调用此函数三次与在三个单独的内核调用中一次的区别在于,一个工作项对全局内存的写入对同一内核调用中的其他工作项不可见。这意味着,在第一个示例中对convolution
的第二次调用期间,工作项将读取过时的值,而看不到此函数的第一次调用的输出。
OpenCL没有提供任何方法来在整个内核调用中同步全局内存。您可以使用barrier
函数来同步工作组中的内存,这可能允许您在单个内核调用中实现算法,但需要进行一些修改。
相关文章:
- 向量 <int> a {N, 0} 和 int arr a[N] = {0} 的时间复杂度有什么区别
- 在 .h 文件中的类中声明静态变量和在.cpp文件中声明"global"变量有什么区别
- 我是C++编程的新手,这些代码之间有什么区别,我应该使用哪一个
- 返回常量对象引用 (getter) 和仅返回字符串有什么区别?
- Qt:remove() 和 rmdir() 有什么区别
- 这 4 个 lambda 表达式之间有什么区别?
- 将向量作为类>(值)<向量启动和向量<类>[值]有什么区别
- typedef 枚举和枚举类有什么区别?
- &C::c 和 &(C::c) 有什么区别?
- ascii 和 unicode 在处理级别有什么区别吗?
- C 中的常量限定符和 C++ 中的常量限定符有什么区别?
- "ABC" 和 "ABC" ) 在C++中有什么区别?
- 空指针常量 (nullptr)、空指针值和空成员指针值之间有什么区别?
- 引用捕获和在 lambda 中通过引用发送参数有什么区别 (C++)
- 两种访问I2C总线的方法有什么区别?
- 两种模板示例有什么区别?
- 这两种C++语法之间有什么区别?
- lua 5.0.2 模块和 5.3.5 有什么区别?
- C++中"typedef"、"using"、"namespace"和"using namespace"有什么区别?
- std::enable_if 和 std::enable_if_t 有什么区别?