在cuda中具有动态分配的C++类

C++ classes with dynamic allocation in cuda?

本文关键字：C++ 动态分配 cuda 更新时间：2023-10-16

我对将C++类移植到CUDA有一个基本的怀疑，我找不到一个直接、明确的答案来回答最终的痛苦。

我认为有人会同意，主机的C++代码将经常在构造函数和析构函数中使用新的/delete运算符。考虑到将C++代码轻松移植到CUDA，很少有帖子声称它"很容易"，或者说越来越容易，给出的主要原因是__host____device__装饰器的例子。在一些帖子中不难发现，设备中的动态分配通常意味着性能上的严重损失。那么，CUDA中的C++类应该怎么处理呢？

添加decorator不会改变构造函数和析构函数核心的动态内存分配。似乎确实需要在没有new/delete的情况下重写C++类。根据我的经验，与静态分配相比，一个新的/delete类的表现有多糟糕，这真的令人印象深刻，原因很明显，但它真的很糟糕，就像去一个20年前的处理器。。。那么，那些用动态分配移植C++应用程序的人会做什么呢？（对于可以用手计数的数组中的极少数双打）

标准方法是更改代码中对象的范围和生命周期，这样就不需要在设备上连续创建和销毁对象作为计算的一部分。在大多数分布式内存体系结构（CUDA、HPC集群等）中，内存分配是昂贵的，通常的解决方案是尽可能节约地使用它，并通过延长对象的寿命来摊销操作成本。

理想情况下，在编程开始时创建所需的所有对象，即使这意味着预先分配一个对象池，这些对象将在程序运行时使用。这比自组织内存分配和释放更有效。它还避免了内存碎片的问题，这在页面大小相当大的GPU硬件上可能会成为一个问题。