CUDA内核作为类的成员函数

CUDA kernel as member function of a class

本文关键字：成员函数内核 CUDA 更新时间：2023-10-16

我使用的是CUDA 5.0和Compute Capability 2.1卡。

问题很简单：内核可以成为类的一部分吗？例如：

class Foo
{
private:
//...
public:
__global__ void kernel();
};
__global__ void Foo::kernel()
{
//implementation here
}

如果不是，那么解决方案是制作一个包装器函数，该函数是类的成员，并在内部调用内核？

如果是，那么它是否可以作为一个正常的私有函数访问私有属性？

(我不只是尝试一下，看看会发生什么，因为我的项目现在还有其他几个错误，而且我认为这是一个很好的参考问题。我很难找到将CUDA与C++一起使用的参考。可以找到基本功能示例，但找不到结构化代码的策略。)

让我暂时不讨论cuda动态并行性(即假设计算能力为3.0或更高版本)。

记住__global__用于cuda函数，这些函数将(仅)从主机调用(但在设备上执行)。如果你在设备上实例化这个对象，它将无法工作。此外，为了使设备可访问的私有数据可用于成员函数，必须在设备上实例化对象。

因此，您可以在宿主对象成员函数中嵌入内核调用(即mykernel<<<blocks,threads>>>(...);)，但内核定义(即带有__global__decorator的函数定义)通常会在源代码中的对象定义之前。如前所述，这种方法不能用于设备上实例化的对象。它也不能访问对象中其他地方定义的普通私有数据。(可能会为一个仅限主机的对象想出一个方案，该对象使用全局内存中的指针来创建设备数据，然后在设备上可以访问这些数据，但乍一看，这样的方案似乎很复杂)。

通常，设备可用的成员函数前面会有__device__decorator。在这种情况下，设备成员函数中的所有代码都是从调用它的线程中执行的

这个问题给出了一个C++对象的例子(在我编辑的答案中)，该对象具有可从主机和设备调用的成员函数，并在主机和设备对象之间进行适当的数据复制。