如何在32位机器上将100G整数插入矢量

How to insert 100G integers into a vector on a 32-bit machine?

本文关键字:整数 100G 插入 32位 机器      更新时间:2023-10-16

假设我有100G整数,并希望将它们插入32位机器上的vector<int>,这可能吗?

如果我使用自定义allocator来管理存储策略,如何保证以下操作始终有效:

vector<int> coll;
coll.insert(100G integers);
memcpy(coll.begin() + (1024 * 1024 * 1024 * 8), "Hello", 5);

注意c++标准要求vector中存储的对象必须是连续的。coll.begin() + (1024 * 1024 * 1024 * 8)可能是硬盘地址

你不能使用本机指针直接访问100g的整数,因为它们会消耗400gb的内存;一些32位操作系统可以寻址高达2,3或4gb的RAM,大多数-使用PAE可寻址高达64gb。不过,任何32位程序都将使用32位指针,最多只能寻址4gb的内存。

所有标准STL实现(libstdc++来自gcc, libcxx来自llvm+clang, stlport来自俄罗斯,microsoft STL来自microsoft…)在STL集合中使用本机指针,并使用本机(32位)size_t作为集合大小。

您可以尝试STL的非标准实现,例如STXXL, http://stxxl.sourceforge.net/(介绍幻灯片),它使用磁盘(HDD)作为存储重新实现了一些STL集合。有了巨大的(你至少需要400GB的)快速SSD,你可以在几天甚至几十小时内填满矢量,如果你幸运的话。

STXXL的主要特性是:透明地支持并行磁盘。该库提供了基本并行磁盘的实现算法。STXXL是唯一的外部内存算法库支持并行磁盘。图书馆能够处理的问题非常大的大小(测试到多达几十tb)。

但是32位平台不支持现代版本的STXXL;我不能说,任何旧版本是否能在32位平台上运行,因为它具有如此巨大的数据…它使用STL的某些部分,如果有任何size_t大小的参数,您的任务将失败…

我认为这是不可能的。不管您的分配策略是什么,也不管数字物理存储在哪里,您都需要足够的地址空间来为每个整数分配一个不同的内存地址。即使sizeof(int)是1,你也需要1000亿个可用地址,而32位地址空间只有大约40亿个。

您可以将数据存储在其他类型的容器中,该容器不公开项目的地址,并且可以在内部使用银行交换方案根据需要加载数据的子集。但是std::vector公开了存储在其中的项的内存地址,所以每个项都需要在任何时候都有一个有效的内存地址(不管这个地址是由RAM还是交换空间支持的)。

您可以尝试使用Boost。进程间的managed_mapped_file。示例:

#include <iostream>
#include <vector>
#include <boost/interprocess/managed_mapped_file.hpp>
#include <boost/interprocess/allocators/allocator.hpp>
int main()
{
    namespace ipc = boost::interprocess;
    using allocator_t = ipc::allocator<int, ipc::managed_mapped_file::segment_manager>;
    using vector_t = std::vector<int, allocator_t>;
    const char* filename = "tmp.dat";
    ipc::managed_mapped_file::size_type filesize = 4096;
    ipc::file_mapping::remove(filename);
    ipc::managed_mapped_file mfile(ipc::create_only, filename, filesize);
    vector_t* vec = mfile.construct<vector_t>("MyVector")(mfile.get_segment_manager());
    vec->resize(10, 42);
    for (int x : *vec) {
        std::cout << x << std::endl;
    }
}