CUDA - 统一内存(至少是帕斯卡）

CUDA - Unified memory (Pascal at least)

本文关键字：帕斯卡内存 CUDA 更新时间：2023-10-16

我想澄清一下统一内存，它是如何工作的，以及如何有效地使用它。

据我所知，我们使用cudaMallocManaged(ptr, size);来分配统一内存数组。由于 Pascal 架构，因此可以设置大于 GPU 上可用物理内存的大小。

假设现在我有一个带有 4GB RAM、32GB 主机 RAM 和一个 1TB 文件的 GC。我想解决这个 1TB 的文件，我该如何处理？

如果我理解得很好，我可以将文件放入统一内存中，但是这个统一数组和文件之间的链接是如何执行的呢？这是否意味着我必须在我分配的指针中memcpy整个文件cudaMallocManaged？

最后，告诉我我是否正确。如果 GPU 引发未命中，CPU 将发送存储在其 RAM 中的数据，如果不是从磁盘发送。它有点简化，但如果它像这样工作，则意味着数据需要在统一数组中。

谢谢你的帮助。

我的回答假设你在Linux上运行CUDA 9.x或更高版本，Pascal或Volta GPU。

您将能够超额订阅 GPU 内存，最高可达主机内存的大小(即主机操作系统允许您分配的任何大小(，减去任何内存分配过程中典型的合理数量(您不应该期望分配主机内存的每个最后一个字节，同样也不应该尝试对托管内存分配执行相同的操作(。

统一内存与文件或存储在磁盘上的任何内容之间没有链接。

正如您可能无法将整个 1TB 文件加载到 32GB 的 RAM 中一样，您无法使用托管内存一次访问所有文件。无论主机操作系统允许您分配/加载多少，您都可以使用 GPU 的大小。

因此，为了处理该 1TB 文件，您可能需要提出一种算法，将其分解为适合系统 RAM 的部分。此概念完全独立于托管内存。此后，如果您想使用 CUDA 访问系统 RAM 中的文件部分，您可以使用托管内存，包括超额订阅(如果您愿意(来这样做。

将文件分解成碎片的确切过程将取决于您正在执行的处理类型，并且对 CUDA 没有特别的依赖性。

在某些系统上可能会超额订阅 CPU 内存。使用 NVLink 上的 Power 9 + V100，可以使用操作系统的地址转换服务 (ATS(，如此处所述。

这样做，即使主机系统上的 RAM 量要小得多，也可以使用来自 GPU 的 1TB 数据。要执行的操作如下：

发生的情况是，操作系统分页机制将按需分页出文件的分页块，并且 GPU 将依赖 ATS 进行此操作。

没有提到，也没有在x86_64和/或上一代GPU和/或PCI-Express连接系统上成功测试此类练习。