如何将设备内存中分配的结构化数据从设备复制到主机

How to copy structured data allocated in device memory from device to host

本文关键字：数据复制主机结构化分配内存更新时间：2023-10-16

我是GPU和CUDA编程的新手。我正在尝试将设备上动态分配的结构化数据从设备复制到主机。我修改了 GPU 编程指南中的简单代码。我在编译代码时没有收到任何错误，但我唯一有问题的是输出是错误的，即"0"。代码如下：

#include <stdlib.h>
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
typedef struct Point
{
    int2 pt;
};
#define NUMOFBLOCKS 1
#define THREDSPERBLOCK  16
__device__ Point* pnt[NUMOFBLOCKS];
Point dataptr_h[NUMOFBLOCKS][THREDSPERBLOCK];
__global__ void allocmem() 
{   
    if (threadIdx.x == 0)       
        pnt[blockIdx.x] = (Point*)malloc(1*blockDim.x * sizeof(Point)); 
    __syncthreads(); 
} 
__global__ void usemem() 
{ 
    Point* ptr = pnt[blockIdx.x]; 
    if (ptr != NULL) 
    {       
        ptr[threadIdx.x].pt.x = threadIdx.x; 
        ptr[threadIdx.x].pt.y = threadIdx.x;
        printf("Ptr = %dt", ptr[threadIdx.x].pt.x);
    }
}
__global__ void freemem() 
{ 
    Point* ptr = pnt[blockIdx.x]; 
    if (ptr != NULL) 
        printf("Block %d, Thread %d: final value = %dn", blockIdx.x, threadIdx.x, ptr[threadIdx.x]); 
    if (threadIdx.x == 0) 
        free(ptr); 
}

int main()
{
    Point* d_pt[NUMOFBLOCKS];
    for (int i = 0 ; i < NUMOFBLOCKS; i++)
        cudaMalloc(&d_pt[i], sizeof(Point)*16);  
    // Allocate memory  
    allocmem<<< NUMOFBLOCKS, THREDSPERBLOCK >>>();  
    // Use memory 
    usemem<<< NUMOFBLOCKS, THREDSPERBLOCK >>>(); 
    cudaMemcpyFromSymbol(d_pt, pnt, sizeof(d_pt));
    cudaMemcpy(dataptr_h, d_pt, sizeof(dataptr_h), cudaMemcpyDeviceToHost);
    for (int j = 0 ; j < 1; j++)
        for (int i = 0 ; i < 16; i++)
        {
            printf("nPtr_h(%d,%d)->X = %dt", j, i, dataptr_h[j][i].pt.x);
            printf("Ptr_h(%d,%d)->Y = %d", j, i, dataptr_h[j][i].pt.y);
        }
    freemem<<< NUMOFBLOCKS, THREDSPERBLOCK >>>();
    cudaDeviceSynchronize();
    return 0;
}

代码的输出为：

Ptr_h(0,0)->X = 0       Ptr_h(0,0)->Y = 0
Ptr_h(0,1)->X = 0       Ptr_h(0,1)->Y = 0
Ptr_h(0,2)->X = 0       Ptr_h(0,2)->Y = 0
Ptr_h(0,3)->X = 0       Ptr_h(0,3)->Y = 0
Ptr_h(0,4)->X = 0       Ptr_h(0,4)->Y = 0
Ptr_h(0,5)->X = 0       Ptr_h(0,5)->Y = 0
Ptr_h(0,6)->X = 0       Ptr_h(0,6)->Y = 0
Ptr_h(0,7)->X = 0       Ptr_h(0,7)->Y = 0
Ptr_h(0,8)->X = 0       Ptr_h(0,8)->Y = 0
Ptr_h(0,9)->X = 0       Ptr_h(0,9)->Y = 0
Ptr_h(0,10)->X = 0      Ptr_h(0,10)->Y = 0
Ptr_h(0,11)->X = 0      Ptr_h(0,11)->Y = 0
Ptr_h(0,12)->X = 0      Ptr_h(0,12)->Y = 0
Ptr_h(0,13)->X = 0      Ptr_h(0,13)->Y = 0
Ptr_h(0,14)->X = 0      Ptr_h(0,14)->Y = 0
Ptr_h(0,15)->X = 0      Ptr_h(0,15)->Y = 0

我该怎么做才能解决这个问题？

您不能将设备创建的指针用于 CUDA 运行时 API malloc操作（即 cudaMemcpy ）

所以这行代码是有问题的：

cudaMemcpy(dataptr_h, d_pt, sizeof(dataptr_h), cudaMemcpyDeviceToHost);

d_pt包含从pnt中获取的指针。 pnt通过设备malloc设置了它的值。

相反，您需要创建使用 cudaMalloc 正确分配的区域，然后首先将所需的数据复制到这些区域（从设备上的一个区域复制到另一个区域），然后使用 cudaMemcpy 复制到主机。

在

我进一步解释您的下一个反对意见之前，让我们明确上述内容是您的意图（使用在设备malloc操作中创建的指针作为cudaMemcpy的目标之一）。这是不合法的。

"可是我用cudaMalloc？？"

d_pt是驻留在主机内存中的指针数组。您获取了这些指针中的每一个，并使用 cudaMalloc 为其分配了一个值（设备内存中的指向位置）。

然后这行代码：

cudaMemcpyFromSymbol(d_pt, pnt, sizeof(d_pt));

覆盖了使用从设备内存中其他位置获取的指针设置的所有指针，特别是设备 malloc 分配的指针。虽然这在技术上是合法的（该行代码不会引发错误），但这些指针在主机上毫无用处（无论如何，用于运行时 API）。