如何测量cudaMalloc执行时间
How to measure cudaMalloc execution time
如何使用cuda事件测量cudaMalloc的执行时间?我可以用事件测量内核时间和cudaMemcpy时间,但这对cudaMalloc不起作用。通过下面的代码,我得到了3.104e-06秒的执行时间(这是错误的(。使用Nvidia Nsight Compute,我可以获得0.109秒的
cudaEventRecord(startCuda);
cudaMalloc(&devMatrix, allocSize);
cudaEventRecord(stopCuda);
cudaEventSynchronize(stopCuda);
cudaEventElapsedTime(&timeCudaMalloc, startCuda, stopCuda);
尝试使用std::chrono::high_resolution_clock使用cpu时钟来测量相同的东西:http://www.cplusplus.com/reference/chrono/high_resolution_clock/now/
此外,我不熟悉Nvidia Nsight Compute,但它会增加调试代码的开销吗?
最后,cudaMalloc的执行时间是高度可变的,所以不要期望得到一致的结果。
相关文章:
- 简单C++"Hello World"程序的执行时间长
- 我使用 OpenMP 的线程越多,执行时间就越长,这是怎么回事?
- 为什么切换 for 循环的顺序会显著改变执行时间?
- cmd.exe与Powershell中C++程序的不同执行时间
- pthread执行时间比顺序执行时间差
- OpenCV 函数 cv::remap() 的执行时间更长,当程序在两者之间进入睡眠状态时
- 为什么 std::chrono 在测量循环和编译器优化的并行 OpenMP 的执行时间时不起作用?
- 我需要帮助来缩短检索 SSL 证书的执行时间
- 如何测量cudaMalloc执行时间
- c++中的执行时间和检查流状态
- 为什么for循环中的异步不能提高执行时间
- 为什么 C++ openMP 程序执行时间更长
- 测量任何 Windows 可执行文件的内存使用情况和执行时间
- 需要减少我的C++代码的执行时间
- 如何在 ubuntu 上的 php 脚本中获取程序(c,c++,java,python,php)的执行时间和内存使用量?
- 在Qt中设置pixmap时的执行时间很奇怪
- 异步控制线程执行时间
- 如何对 g++ 设置执行时间限制?
- 测量 std::系统的实际执行时间(以 C++ 为单位)
- 视觉在C 中获取每行代码的执行时间