std::map或std::unordereded_map中的哪个容器适合我的情况

which container from std::map or std::unordered_map is suitable for my case

本文关键字：std map 我的情况 unordereded 更新时间：2023-10-16

我不知道红黑树是如何使用字符串键的。我已经在youtube上看到了它的数字，这让我很困惑。然而，我非常清楚非edred_map是如何工作的（哈希映射的内部）。std:：map对我来说仍然很深奥，但我读过并测试过，如果我们在std:：map中没有太多更改，它可能会击败哈希映射。

我的情况很简单，我有一个<std::string,bool>的std:：映射。键包含指向XML元素的路径（键的示例："Instrument_Roots/Instrument_Root/Rating_Type"），我在SAX解析器中使用布尔值来知道我们是否到达了特定的元素。

我"只做过一次"这张地图；然后我所做的就是使用std：：find来搜索是否存在特定的"键"（"路径"），以将其布尔值设置为true，或者搜索第一个具有"true"作为关联值的元素并使用其对应的"密钥"，最后我将所有布尔值设置为false，以确保只有一个"密钥"具有"true"布尔值。

您不需要了解红黑树是如何工作的，就可以了解如何使用std::map。它只是一个关联数组，其中键是按顺序排列的（在字符串键的情况下，字典顺序，至少使用默认的比较函数）。这意味着您不仅可以在std::map中查找关键字，还可以根据顺序进行查询。例如，您可以在地图中找到最大的关键点，该关键点不大于您所拥有的关键点。你可以找到下一把更大的钥匙。或者（在字符串的情况下）您可以找到所有以相同前缀开头的键。

如果您对std::map中的所有键值对进行迭代，您将按键的顺序看到它们。有时候，这可能非常有用。

额外的功能是有代价的。std::map通常比std::unordered_map慢（尽管并非总是如此；对于大型字符串键，计算哈希函数的开销可能会很明显），并且底层数据结构有一定的开销，因此它们可能会占用更多的空间。通常的建议是，如果您发现密钥是必需的，甚至是有用的，则使用std::map。

但是，如果您已经基准测试并得出结论，对于您的应用程序，std::map也更快，那么继续使用它：）

映射类型为bool的映射偶尔会很有用，但前提是需要区分对应值为false的键和映射中根本不存在的键。实际上，std::map<T, bool>（或std::unordered_map<T, bool>）为每个可能的密钥提供了三元选择。

如果您不需要区分两种false的情况，并且不经常更改键的值，那么您最好使用std::set（或std::unordered_set），它完全是相同的数据结构，但在每个元素中没有bool的开销。（尽管bool只有一个比特是有用的，但对齐考虑可能最终会为每个条目使用8个额外的字节。）不过，除了存储空间之外，性能不会有太大差异（如果有的话）。

如果您确实需要一个三元大小写，那么最好将该值设为enum，而不是bool。true和false在您使用的上下文中是什么意思？我的猜测是，它们的意思不是"真"answers"假"。相反，它们的意思是"是属性路径"answers"是元素路径"。使用enum PathType {ATTRIBUTE_PATH, ELEMENT_PATH};可以使这种区别更加清晰（因此不太容易发生事故）。这将不涉及任何额外的资源，因为bool在任何情况下都占用了8个字节的存储（因为对齐）。

顺便说一句，不能保证底层数据结构正是一棵红黑树，尽管如果没有某种自平衡树，性能保证将很难实现。我不知道这样的实现，但例如，可以使用k元树（对于一些小k）来利用SIMD向量比较操作。当然，这需要针对适当的密钥类型进行定制。

如果你真的想了解红黑树，你可以做得比Robert Sedgewick的算法标准教科书更糟糕。在这本书的网站上，你会在关于平衡树的章节中找到一个简短的插图解释。

我建议您使用std:：unordered_set，因为您真的不需要存储这个布尔标志，也不需要按排序顺序保存这些xml标记，所以在我看来，std:：unrdered.set是合乎逻辑且最有效的选择。