测量内核运行时间
Measure kernel run time
我用C++包装器制作了我的第一个OpenCL程序,它将2个向量相乘并对结果进行平方。我需要查看整个 OpenCL 过程需要多少时间,但我还没有找到任何完整的方法来使用包装器实现C++分析。我的主要问题是,enqueueNDRangeKernel
内核采用事件向量,但clgetEventProfilingInfo
采用单个cl_event
。我试图找到另一种使用 enqueueMarker
的方法,但它不再受支持。这是代码:
int main()
{
std::vector<cl::Platform> all_platforms;
cl::Platform::get(&all_platforms);
if (all_platforms.size() == 0) {
std::cout << " No platforms found. Check OpenCL installation!n";
exit(1);
}
cl::Platform default_platform = all_platforms[0];
std::cout << "Using platform: " << default_platform.getInfo<CL_PLATFORM_NAME>() << "n";
//get default device of the default platform
std::vector<cl::Device> all_devices;
default_platform.getDevices(CL_DEVICE_TYPE_ALL, &all_devices);
if (all_devices.size() == 0)
{
std::cout << " No devices found. Check OpenCL installation!n";
exit(1);
}
cl::Device default_device = all_devices[0];
std::cout << "Using device: " << default_device.getInfo<CL_DEVICE_NAME>() << "n";
cl::Context context({ default_device });
cl::Program::Sources sources;
std::string kernel_code =
" void kernel simple_add(global const float* A, global const float* B, global float* C){ "
" C[get_global_id(0)]=A[get_global_id(0)]*B[get_global_id(0)]; "
" C[get_global_id(0)]=sqrt(C[get_global_id(0)]); "
" } ";
sources.push_back({ kernel_code.c_str(),kernel_code.length() });
cl::Program program(context, sources);
if (program.build({ default_device }) != CL_SUCCESS) {
std::cout << " Error building: " << program.getBuildInfo<CL_PROGRAM_BUILD_LOG>(default_device) << "n";
system("pause");
exit(1);
}
cl::Buffer buffer_A(context, CL_MEM_READ_WRITE, sizeof(float) * 10000);
cl::Buffer buffer_B(context, CL_MEM_READ_WRITE, sizeof(float) * 10000);
cl::Buffer buffer_C(context, CL_MEM_READ_WRITE, sizeof(float) * 10000);
float A[10000];
for (int i = 0; i < 10000; i++)
{
A[i] = (float)i;
}
float B[10000] ;
cl::CommandQueue queue(context, default_device,CL_QUEUE_PROFILING_ENABLE);
queue.enqueueWriteBuffer(buffer_A, CL_TRUE, 0, sizeof(float) * 10000, A);
queue.enqueueWriteBuffer(buffer_B, CL_TRUE, 0, sizeof(float) * 10000, B);
cl::Kernel kernel_add=cl::Kernel(program,"simple_add");
kernel_add.setArg(0,buffer_A);
kernel_add.setArg(1,buffer_B);
kernel_add.setArg(2,buffer_C);
std::vector<cl::Event> gpu_event;
queue.enqueueNDRangeKernel(kernel_add, cl::NullRange, cl::NDRange(10000), cl::NullRange,&gpu_event);
//this takes vector
queue.finish();
cl_ulong time_start, time_end;
float C[10000];
queue.enqueueReadBuffer(buffer_C, CL_TRUE, 0, sizeof(float) * 10000, C);
clGetEventProfilingInfo(&gpu_event,CL_PROFILING_COMMAND_START,sizeof(time_start),&time_start,NULL);
clGetEventProfilingInfo(&gpu_event,CL_PROFILING_COMMAND_END,sizeof(time_end),&time_end,NULL);
//theese two take cl_event
double time= time_end - time_start;
std::cout<<"TIME: "<<time << "n ";
system("pause");
}
我可能会把这一切搞砸,从 C 中获取一些部分,从 C++ 中获取其他部分。
正如huseyin tugrul buyukisik的评论中所述,enqueNDRangeKernel
调用需要等待的事件列表,此外还需要一个cl::Event*
来提供自己的信息。因此,您的电话应如下所示
cl::Event event;
queue.enqueueNDRangeKernel(kernel_add, cl::NullRange, cl::NDRange(10000), cl::NullRange, NULL, &event);
有了这个,您可以使用 cl::Event
的接口进行查询:
time_start = event.getProfilingInfo<CL_PROFILING_COMMAND_START>();
time_end = event.getProfilingInfo<CL_PROFILING_COMMAND_END>();
相关文章:
- KMP算法和LPS表构造的运行时间
- 如何计算Big-O表示法中的平均渐近运行时间
- 用时钟测量程序的运行时间
- 如何减少代码的运行时间以对齐文本?
- 我的 c++ 应用程序中的运行时间从 0 增加到 60 太快了(例如一毫秒或一微秒)
- 使用 Qt 测量过程的实际运行时间
- 如何执行用 C++ 编写的程序的运行时间?
- 无限运行时间
- 如何优化C++键值程序以获得更快的运行时间
- 这个算法的运行时间复杂度是多少?你是如何分析的
- 两个嵌套循环的运行时间复杂性:二次型还是线性
- 重复值的最长运行时间
- 同一程序的运行时间差异很大,有时达到1000+us
- 测量 OpenCL 应用程序的运行时间
- 为什么以相同的数量插入到集合中,基于不同的方法具有不同的运行时间?
- variadic函数模板:基于n编译时值在运行时间自动n输入
- 如何修复数据库连接的C 程序运行时间错误(0xc0000005)
- C 获得运行时间和内存使用量
- C DO插座关闭自己的运行时间
- 测量内核运行时间