std::map或std::unordereded_map中的哪个容器适合我的情况

which container from std::map or std::unordered_map is suitable for my case

本文关键字:std map 我的 情况 unordereded      更新时间:2023-10-16

我不知道红黑树是如何使用字符串键的。我已经在youtube上看到了它的数字,这让我很困惑。然而,我非常清楚非edred_map是如何工作的(哈希映射的内部)。std::map对我来说仍然很深奥,但我读过并测试过,如果我们在std::map中没有太多更改,它可能会击败哈希映射。

我的情况很简单,我有一个<std::string,bool>的std::映射。键包含指向XML元素的路径(键的示例:"Instrument_Roots/Instrument_Root/Rating_Type"),我在SAX解析器中使用布尔值来知道我们是否到达了特定的元素。

我"只做过一次"这张地图;然后我所做的就是使用std::find来搜索是否存在特定的"键"("路径"),以将其布尔值设置为true,或者搜索第一个具有"true"作为关联值的元素并使用其对应的"密钥",最后我将所有布尔值设置为false,以确保只有一个"密钥"具有"true"布尔值。

您不需要了解红黑树是如何工作的,就可以了解如何使用std::map。它只是一个关联数组,其中键是按顺序排列的(在字符串键的情况下,字典顺序,至少使用默认的比较函数)。这意味着您不仅可以在std::map中查找关键字,还可以根据顺序进行查询。例如,您可以在地图中找到最大的关键点,该关键点不大于您所拥有的关键点。你可以找到下一把更大的钥匙。或者(在字符串的情况下)您可以找到所有以相同前缀开头的键。

如果您对std::map中的所有键值对进行迭代,您将按键的顺序看到它们。有时候,这可能非常有用。

额外的功能是有代价的。std::map通常比std::unordered_map慢(尽管并非总是如此;对于大型字符串键,计算哈希函数的开销可能会很明显),并且底层数据结构有一定的开销,因此它们可能会占用更多的空间。通常的建议是,如果您发现密钥是必需的,甚至是有用的,则使用std::map

但是,如果您已经基准测试并得出结论,对于您的应用程序,std::map也更快,那么继续使用它:)


映射类型为bool的映射偶尔会很有用,但前提是需要区分对应值为false的键和映射中根本不存在的键。实际上,std::map<T, bool>(或std::unordered_map<T, bool>)为每个可能的密钥提供了三元选择。

如果您不需要区分两种false的情况,并且不经常更改键的值,那么您最好使用std::set(或std::unordered_set),它完全是相同的数据结构,但在每个元素中没有bool的开销。(尽管bool只有一个比特是有用的,但对齐考虑可能最终会为每个条目使用8个额外的字节。)不过,除了存储空间之外,性能不会有太大差异(如果有的话)。

如果您确实需要一个三元大小写,那么最好将该值设为enum,而不是booltruefalse在您使用的上下文中是什么意思?我的猜测是,它们的意思不是"真"answers"假"。相反,它们的意思是"是属性路径"answers"是元素路径"。使用enum PathType {ATTRIBUTE_PATH, ELEMENT_PATH};可以使这种区别更加清晰(因此不太容易发生事故)。这将不涉及任何额外的资源,因为bool在任何情况下都占用了8个字节的存储(因为对齐)。


顺便说一句,不能保证底层数据结构正是一棵红黑树,尽管如果没有某种自平衡树,性能保证将很难实现。我不知道这样的实现,但例如,可以使用k元树(对于一些小k)来利用SIMD向量比较操作。当然,这需要针对适当的密钥类型进行定制。

如果你真的想了解红黑树,你可以做得比Robert Sedgewick的算法标准教科书更糟糕。在这本书的网站上,你会在关于平衡树的章节中找到一个简短的插图解释。

我建议您使用std::unordered_set,因为您真的不需要存储这个布尔标志,也不需要按排序顺序保存这些xml标记,所以在我看来,std::unrdered.set是合乎逻辑且最有效的选择。