cudaMemcpy2D 错误与大数组

cudaMemcpy2D error with large array

本文关键字：数组错误 cudaMemcpy2D 更新时间：2023-10-16

我尝试使用cudaMallocPitch和cudaMemcpy2D，但是当我尝试将cudaMemcpy2D与大数组一起使用时，我遇到了一个问题：

分段错误

这是可运行的源代码，没有错误。

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <iostream>
#include <random>
#define ROW_SIZE 32
#define COL_SIZE 1024
int main()
{
    float ** pfTest;
    pfTest = (float**)malloc(ROW_SIZE * sizeof(float*));
    for (int i = 0; i < ROW_SIZE; i++) {
        pfTest[i] = (float*)malloc(COL_SIZE * sizeof(float));
    }
    std::default_random_engine generator;
    std::uniform_real_distribution<float> distribution;
    for (int y = 0; y < ROW_SIZE; y++) {
        for (int x = 0; x < COL_SIZE; x++) {
            pfTest[y][x] = distribution(generator);
        }
    }   
    float *dev_Test;
    size_t pitch;
    cudaMallocPitch(&dev_Test, &pitch, COL_SIZE * sizeof(float), ROW_SIZE);
    cudaMemcpy2D(dev_Test, pitch, pfTest, COL_SIZE * sizeof(float), COL_SIZE * sizeof(float),  ROW_SIZE, cudaMemcpyHostToDevice);
    printf("%sn", cudaGetErrorString(cudaGetLastError()));
    return 0;
}

如您所见，完全没有问题。但是，当我尝试将COL_SIZE扩展到大约 500,000（确切地说，524288）时，它因分段错误而崩溃。

关于问题的根源有什么帮助吗？

cudaMemcpy2D只能用于复制倾斜的线性存储器。您的源数组不是倾斜的线性存储器，它是一个指针数组。这不受支持，并且是段错误的根源。

尝试这样的事情：

float*  buffer;
float** pfTest;
const size_t buffer_pitch = size_t(COL_SIZE) * sizeof(float); 
buffer = (float*)malloc(size_t(ROW_SIZE) * buffer_pitch);
pfTest = (float**)malloc(ROW_SIZE * sizeof(float*));
for (size_t i = 0; i < ROW_SIZE; i++) {
    pfTest[i] = buffer + i * size_t(COL_SIZE);
}
// ...
cudaMallocPitch(&dev_Test, &pitch, buffer_pitch, ROW_SIZE);
cudaMemcpy2D(dev_Test, pitch, buffer, buffer_pitch, 
               buffer_pitch, ROW_SIZE, cudaMemcpyHostToDevice);

[注：用浏览器编写，从未测试或编译，使用风险自负]

即将要复制的数据存储在单个连续内存分配中，该分配可以充当cudaMemcpy2D的倾斜线性源。如果您坚持在主机上使用[][]样式索引，那么您必须付出代价，即在数据旁边存储额外的指针数组。请注意，这实际上不是必需的，您可以直接索引到buffer并实现相同的结果，同时节省内存。