在cuda中具有动态分配的C++类

C++ classes with dynamic allocation in cuda?

本文关键字:C++ 动态分配 cuda      更新时间:2023-10-16

我对将C++类移植到CUDA有一个基本的怀疑,我找不到一个直接、明确的答案来回答最终的痛苦。

我认为有人会同意,主机的C++代码将经常在构造函数和析构函数中使用新的/delete运算符。考虑到将C++代码轻松移植到CUDA,很少有帖子声称它"很容易",或者说越来越容易,给出的主要原因是__host____device__装饰器的例子。在一些帖子中不难发现,设备中的动态分配通常意味着性能上的严重损失。那么,CUDA中的C++类应该怎么处理呢?

添加decorator不会改变构造函数和析构函数核心的动态内存分配。似乎确实需要在没有new/delete的情况下重写C++类。根据我的经验,与静态分配相比,一个新的/delete类的表现有多糟糕,这真的令人印象深刻,原因很明显,但它真的很糟糕,就像去一个20年前的处理器。。。那么,那些用动态分配移植C++应用程序的人会做什么呢?(对于可以用手计数的数组中的极少数双打)

标准方法是更改代码中对象的范围和生命周期,这样就不需要在设备上连续创建和销毁对象作为计算的一部分。在大多数分布式内存体系结构(CUDA、HPC集群等)中,内存分配是昂贵的,通常的解决方案是尽可能节约地使用它,并通过延长对象的寿命来摊销操作成本。

理想情况下,在编程开始时创建所需的所有对象,即使这意味着预先分配一个对象池,这些对象将在程序运行时使用。这比自组织内存分配和释放更有效。它还避免了内存碎片的问题,这在页面大小相当大的GPU硬件上可能会成为一个问题。