如何减少哈希表槽中的指针/地址宽度

How to reduce the pointer/address width in a hash table slot?

本文关键字:地址 指针 何减少 哈希表      更新时间:2023-10-16

假设我们有一个使用链接(链表)来解决哈希冲突的哈希表。每个哈希表槽都有一个指针字段,指向链表的第一个节点。此指针将占用4或8个字节,具体取决于x86或x64操作系统。

对于一些有数百万个插槽的大型哈希表,指针将消耗巨大的内存资源。对于硬件实现,我们可以在FPGA上自定义指针/地址宽度以节省内存。我的问题是,对于软件实现,是否还有任何方法可以将指针大小减少到3字节?

如果一开始就不以这种方式实现哈希表,则可以将溢出列表的指针大小开销减少到0字节。

实际上,实现哈希表并没有任何缺点,即如果表的一个槽已经包含一个值,则可以应用"某种策略"来找到另一个空槽。如果你在写作时这样做,你的读取函数需要执行模拟步骤来找到合适的读取点。

这种方法的性能实际上并不比外部溢出列表差,因为在拥有这些溢出列表的情况下,您要做的是在溢出列表中执行线性搜索。有了一个就地哈希表,你就可以执行——这取决于所选择的策略,也有点像线性探测。

这样做的一个想法是使用一组哈希键,而不是一个。(通常为2,则称为双重哈希)。如果你写了,表的槽已经被占用了,你可以使用集合中的下一个哈希键,然后再试一次,直到你的哈希键用完或找到一个空位。使用N个哈希键,您可以执行N个步骤。

对于读取,在这种情况下,您尝试找到条目,按照与写入和探测相同的顺序应用哈希键集(如果这是您需要的条目),就像探测溢出列表一样。

由于哈希表只有在填充率较低的情况下才"有意义",因此这种策略实际上节省了溢出列表实现所需的大量内存。