标准::unordered_map的哈希值

Hash value for a std::unordered_map

本文关键字:哈希值 map unordered 标准      更新时间:2023-10-16

根据标准,std::hash类中不支持容器(更不用说无序容器了(。所以我想知道如何实现它。我拥有的是:

std::unordered_map<std::wstring, std::wstring> _properties;
std::wstring _class;

我想过迭代条目,计算键和值的各个哈希值(通过std::hash<std::wstring>(,并以某种方式连接结果。

这样做

的好方法是什么,如果未定义地图中的顺序是否重要?

注意:我不想使用加速。

建议使用一个简单的异或,所以它会像这样:

size_t MyClass::GetHashCode()
{
  std::hash<std::wstring> stringHash;
  size_t mapHash = 0;
  for (auto property : _properties)
    mapHash ^= stringHash(property.first) ^ stringHash(property.second);
    return ((_class.empty() ? 0 : stringHash(_class)) * 397) ^ mapHash;
}

我真的不确定这个简单的异或是否足够。

响应

如果足够了,你的意思是你的函数是否是单射的,答案是否定的。原因是函数可以输出的所有哈希值的集合具有基数 2^64,而输入的空间要大得多。但是,这并不重要,因为鉴于输入的性质,您不能使用单射哈希函数。一个好的哈希函数具有以下品质:

  • 它不容易逆转。给定输出 k,在宇宙的生命周期内找到 m 使得 h(m( = k 在计算上是不可行的。
  • 范围均匀分布在输出空间上。
  • 很难找到两个输入 m 和 m' 使得 h(m( = h(m'(

当然,这些范围实际上取决于你是想要加密安全的东西,还是想要获取一些任意数据块并发送一些任意的 64 位整数。如果你想要一些加密安全的东西,自己写不是一个好主意。在这种情况下,您还需要保证该函数对输入中的微小变化敏感。std::hash函数对象不需要加密安全。它存在于与哈希表同构的用例中。CPP参考 说:

对于两个不同的参数k1k2不相等,std::hash<Key>()(k1) == std::hash<Key>()(k2)的概率应该非常小,接近1.0/std::numeric_limits<size_t>::max()

我将在下面展示您当前的解决方案如何不能真正保证这一点。

碰撞

我将向您介绍我对解决方案变体的一些观察(我不知道您的_class成员是什么(。

std::size_t hash_code(const std::unordered_map<std::string, std::string>& m) {
    std::hash<std::string> h;
    std::size_t result = 0;
    for (auto&& p : m) {
        result ^= h(p.first) ^ h(p.second);
    }
    return result;
}
很容易

产生碰撞。请考虑以下地图:

std::unordered_map<std::string, std::string> container0;
std::unordered_map<std::string, std::string> container1;
container0["123"] = "456";
container1["456"] = "123";
std::cout << hash_code(container0) << 'n';
std::cout << hash_code(container1) << 'n';

在我的机器上,使用 g++ 4.9.1 编译,输出:

1225586629984767119
1225586629984767119

关于这是否重要的问题出现了。相关的是,您将拥有键和值颠倒的地图的频率。这些冲突将发生在键和值集相同的任何两个映射之间。

迭代顺序

具有完全相同键值对的两个unordered_map实例不一定具有相同的迭代顺序。CPP参考 说:

对于相等的两个参数k1k2std::hash<Key>()(k1) == std::hash<Key>()(k2)

这是哈希函数的微不足道的要求。您的解决方案避免了这种情况,因为迭代顺序无关紧要,因为 XOR 是可交换的。

一个可能的解决方案

如果不需要加密安全的内容,可以稍微修改解决方案以消除对称性。这种方法在实践中对于哈希表等是可以的。此解决方案还独立于unordered_map中的顺序未定义这一事实。它使用与解决方案相同的属性(异或的交换性(。

std::size_t hash_code(const std::unordered_map<std::string, std::string>& m) {
    const std::size_t prime = 19937;
    std::hash<std::string> h;
    std::size_t result = 0;
    for (auto&& p : m) {
        result ^= prime*h(p.first) + h(p.second);
    }
    return result;
}
在这种情况下,哈希

函数所需要的只是一种将键值对映射到任意良好哈希值的方法,以及一种使用交换运算组合键值对的哈希的方法。这样,顺序就无关紧要了。在我写的示例中hash_code,键值对哈希值只是键的哈希和值的哈希的线性组合。你可以构建一些更复杂的东西,但没有必要这样做。