地图数据结构的Multimap

multimap of map data structure

本文关键字：Multimap 数据结构地图更新时间：2023-10-16

我正在解析一个有近10亿条(或可能是万亿)记录的文件。我正在使用

 struct ltstr
 {
    bool operator()(const char* s1, const char* s2) const
    {
        return strcmp(s1, s2) < 0;
    }
 };
 multimap<char*, map<char*, char*, ltsr>,ltstr > m;

在c++中使用上述数据结构是否有效?

对

不，它不是。数十亿，更不用说数万亿的记录将无法容纳今天计算机的操作存储器。请记住，十亿条记录仅用于映射开销就消耗32 GB，另外16 GB用于指向键和值的指针，显然n更多的GB，其中n是实际数据的键和值的平均长度(假设是64位系统;在32位系统中，它只有一半，但它不适合3 GB的地址空间限制)。世界上只有少数大型服务器拥有如此多的内存。

处理如此大量的数据的唯一选择是小批量处理它们。如果可以对每个元素分别进行处理，则每次只加载一个元素，处理它并丢弃它。无论数据大小如何，流处理总是更快，因为它只需要固定数量的内存，因此可以有效地利用CPU缓存。

如果不能这样处理，因为需要特定的顺序，或者需要查找条目等，则需要将数据准备到适当的外部(磁盘上)结构中。例如，使用外部归并排序(将分区写入临时文件)对它们进行排序，使用b树或哈希或诸如此类的索引。这是一个大量的工作。但幸运的是，有几个库实现了这些算法。我建议:

A *DMB，外部哈希库，如GDBM, Berkeley DB或ndbm。这些只是提供map的外部模拟，最简单，但API是基于c的。
stxxl提供了几个外部容器的外部变体和在它们上工作的算法。最大的优点是API与标准库集合相同。
对于更复杂的数据操作，请使用sqlite。它同样快速，更复杂的数据处理更容易用SQL表达。