如何在32位机器上将100G整数插入矢量

How to insert 100G integers into a vector on a 32-bit machine?

本文关键字：整数 100G 插入 32位机器更新时间：2023-10-16

假设我有100G整数，并希望将它们插入32位机器上的vector<int>，这可能吗?

如果我使用自定义allocator来管理存储策略，如何保证以下操作始终有效:

vector<int> coll;
coll.insert(100G integers);
memcpy(coll.begin() + (1024 * 1024 * 1024 * 8), "Hello", 5);

注意c++标准要求vector中存储的对象必须是连续的。coll.begin() + (1024 * 1024 * 1024 * 8)可能是硬盘地址

你不能使用本机指针直接访问100g的整数，因为它们会消耗400gb的内存;一些32位操作系统可以寻址高达2,3或4gb的RAM，大多数-使用PAE可寻址高达64gb。不过，任何32位程序都将使用32位指针，最多只能寻址4gb的内存。

所有标准STL实现(libstdc++来自gcc, libcxx来自llvm+clang, stlport来自俄罗斯，microsoft STL来自microsoft…)在STL集合中使用本机指针，并使用本机(32位)size_t作为集合大小。

您可以尝试STL的非标准实现，例如STXXL, http://stxxl.sourceforge.net/(介绍幻灯片)，它使用磁盘(HDD)作为存储重新实现了一些STL集合。有了巨大的(你至少需要400GB的)快速SSD，你可以在几天甚至几十小时内填满矢量，如果你幸运的话。

STXXL的主要特性是:透明地支持并行磁盘。该库提供了基本并行磁盘的实现算法。STXXL是唯一的外部内存算法库支持并行磁盘。图书馆能够处理的问题非常大的大小(测试到多达几十tb)。

但是32位平台不支持现代版本的STXXL;我不能说，任何旧版本是否能在32位平台上运行，因为它具有如此巨大的数据…它使用STL的某些部分，如果有任何size_t大小的参数，您的任务将失败…

我认为这是不可能的。不管您的分配策略是什么，也不管数字物理存储在哪里，您都需要足够的地址空间来为每个整数分配一个不同的内存地址。即使sizeof(int)是1，你也需要1000亿个可用地址，而32位地址空间只有大约40亿个。

您可以将数据存储在其他类型的容器中，该容器不公开项目的地址，并且可以在内部使用银行交换方案根据需要加载数据的子集。但是std::vector公开了存储在其中的项的内存地址，所以每个项都需要在任何时候都有一个有效的内存地址(不管这个地址是由RAM还是交换空间支持的)。

您可以尝试使用Boost。进程间的managed_mapped_file。示例:

#include <iostream>
#include <vector>
#include <boost/interprocess/managed_mapped_file.hpp>
#include <boost/interprocess/allocators/allocator.hpp>
int main()
{
    namespace ipc = boost::interprocess;
    using allocator_t = ipc::allocator<int, ipc::managed_mapped_file::segment_manager>;
    using vector_t = std::vector<int, allocator_t>;
    const char* filename = "tmp.dat";
    ipc::managed_mapped_file::size_type filesize = 4096;
    ipc::file_mapping::remove(filename);
    ipc::managed_mapped_file mfile(ipc::create_only, filename, filesize);
    vector_t* vec = mfile.construct<vector_t>("MyVector")(mfile.get_segment_manager());
    vec->resize(10, 42);
    for (int x : *vec) {
        std::cout << x << std::endl;
    }
}