测量内核运行时间

Measure kernel run time

本文关键字：运行时间内核测量更新时间：2023-10-16

我用C++包装器制作了我的第一个OpenCL程序，它将2个向量相乘并对结果进行平方。我需要查看整个 OpenCL 过程需要多少时间，但我还没有找到任何完整的方法来使用包装器实现C++分析。我的主要问题是，enqueueNDRangeKernel内核采用事件向量，但clgetEventProfilingInfo采用单个cl_event。我试图找到另一种使用 enqueueMarker 的方法，但它不再受支持。这是代码：

int main()
{
    std::vector<cl::Platform> all_platforms;
    cl::Platform::get(&all_platforms);
    if (all_platforms.size() == 0) {
        std::cout << " No platforms found. Check OpenCL installation!n";
        exit(1);
    }
    cl::Platform default_platform = all_platforms[0];
    std::cout << "Using platform: " << default_platform.getInfo<CL_PLATFORM_NAME>() << "n";
    //get default device of the default platform
    std::vector<cl::Device> all_devices;
    default_platform.getDevices(CL_DEVICE_TYPE_ALL, &all_devices);
    if (all_devices.size() == 0) 
    {
        std::cout << " No devices found. Check OpenCL installation!n";
        exit(1);
    }
    cl::Device default_device = all_devices[0];
    std::cout << "Using device: " << default_device.getInfo<CL_DEVICE_NAME>() << "n";
    cl::Context context({ default_device });
    cl::Program::Sources sources;
    std::string kernel_code =
        "   void kernel simple_add(global const float* A, global const float* B, global float* C){ "
"               C[get_global_id(0)]=A[get_global_id(0)]*B[get_global_id(0)];        "
        "       C[get_global_id(0)]=sqrt(C[get_global_id(0)]);               "
        "   }                                                                               ";
    sources.push_back({ kernel_code.c_str(),kernel_code.length() });
    cl::Program program(context, sources);
    if (program.build({ default_device }) != CL_SUCCESS) {
        std::cout << " Error building: " << program.getBuildInfo<CL_PROGRAM_BUILD_LOG>(default_device) << "n";
        system("pause");
        exit(1);
    }
    cl::Buffer buffer_A(context, CL_MEM_READ_WRITE, sizeof(float) * 10000);
    cl::Buffer buffer_B(context, CL_MEM_READ_WRITE, sizeof(float) * 10000);
    cl::Buffer buffer_C(context, CL_MEM_READ_WRITE, sizeof(float) * 10000);
    float A[10000];
    for (int i = 0; i < 10000; i++)
    {
        A[i] = (float)i;
    }
    float B[10000] ;
    cl::CommandQueue queue(context, default_device,CL_QUEUE_PROFILING_ENABLE);
    queue.enqueueWriteBuffer(buffer_A, CL_TRUE, 0, sizeof(float) * 10000, A);
    queue.enqueueWriteBuffer(buffer_B, CL_TRUE, 0, sizeof(float) * 10000, B);
    cl::Kernel kernel_add=cl::Kernel(program,"simple_add");
    kernel_add.setArg(0,buffer_A);
    kernel_add.setArg(1,buffer_B);
    kernel_add.setArg(2,buffer_C);
    std::vector<cl::Event> gpu_event;
    queue.enqueueNDRangeKernel(kernel_add, cl::NullRange, cl::NDRange(10000), cl::NullRange,&gpu_event);
    //this takes vector 
    queue.finish();
    cl_ulong time_start, time_end;
    float C[10000];
    queue.enqueueReadBuffer(buffer_C, CL_TRUE, 0, sizeof(float) * 10000, C);
    clGetEventProfilingInfo(&gpu_event,CL_PROFILING_COMMAND_START,sizeof(time_start),&time_start,NULL);
    clGetEventProfilingInfo(&gpu_event,CL_PROFILING_COMMAND_END,sizeof(time_end),&time_end,NULL);
    //theese two take cl_event
    double time= time_end - time_start;
    std::cout<<"TIME: "<<time << "n ";
    system("pause");
}

我可能会把这一切搞砸，从 C 中获取一些部分，从 C++ 中获取其他部分。

正如huseyin tugrul buyukisik的评论中所述，enqueNDRangeKernel调用需要等待的事件列表，此外还需要一个cl::Event*来提供自己的信息。因此，您的电话应如下所示

cl::Event event; 
queue.enqueueNDRangeKernel(kernel_add, cl::NullRange, cl::NDRange(10000), cl::NullRange, NULL, &event);

有了这个，您可以使用 cl::Event 的接口进行查询：

time_start = event.getProfilingInfo<CL_PROFILING_COMMAND_START>();
time_end = event.getProfilingInfo<CL_PROFILING_COMMAND_END>();