在CUDA内核中使用特征3.3

Using Eigen 3.3 in a CUDA kernel

本文关键字：特征 CUDA 内核更新时间：2023-10-16

自2016年11月以来，可以编译引用eigen3.3的cuda代码 - 请参阅此答案

这个答案不是我想要的，现在可能会"过时"，因为现在可能会有一种更简单的方法，因为以下内容写在文档中

从eigen 3.3开始，现在可以使用eigen的对象和 CUDA内核中的算法。但是，只有一部分功能是支持以确保没有触发动态分配 cuda内核。

另请参阅此处。不幸的是，我找不到任何外观的例子。

我的问题

现在是否可以编写一个内核，例如以下，它应该简单地计算一堆点产品？

__global__ void cu_dot(Eigen::Vector3d *v1, Eigen::Vector3d *v2, double *out, size_t N)
{
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if(idx < N)
    {
        out[idx] = v1[idx].dot(v2[idx]);
    }
    return;
}

我可以编译这个，但似乎不起作用。当我尝试将数据复制到主机时，我会得到illegal memory access。请注意，我最初将vector3d的vector3d存储为`std :: vector，然后分别使用

cudaMalloc((void **)&p_device_v1, sizeof(Eigen::Vector3d)*n);
cudaMemcpy(p_v1_device, v1.data(), sizeof(Eigen::Vector3d)*n, cudaMemcpyHostToDevice);

我已经在https://github.com/gpmueller/eigen-cuda

上设置了 mwe项目使用cmake使用cmake

在GitHub上的MWE项目中，您写道：

double dot(std::vector<Eigen::Vector3d> v1, std::vector<Eigen::Vector3d> v2)
{   
    ...     
    // Dot product
    cu_dot<<<(n+1023)/1024, 1024>>>(v1.data(), v2.data(), dev_ret, n);

v1.data()和v2.data()指针在CPU内存中。您需要在GPU内存中使用指针，即

// Dot product
cu_dot<<<(n+1023)/1024, 1024>>>(dev_v1, dev_v2, dev_ret, n);

cpu vs gpu结果不是相同的，但这是代码的问题，即您没有对多个点产品进行减少。