帮助一个矢量缓存局部性?(c++)

Helps a vector for cache locality? (C++)

本文关键字:局部性 缓存 c++ 一个 帮助      更新时间:2023-10-16

上周我读到了一些很棒的概念,比如缓存局部性和cpu中的流水线。虽然这些概念很容易理解,但我有两个问题。假设可以在对象向量和指向对象的指针向量之间进行选择(就像这个问题一样)。

那么使用指针的一个参数是,变换较大的对象可能代价高昂。然而,我无法找到何时应该将对象称为large。几个字节的对象已经很大了吗?

指针的一个参数是丢失缓存局部性。如果使用两个向量,其中第一个包含对象并且不会被重新排序,第二个包含指向这些对象的指针,会有帮助吗?假设我们有一个包含200个对象的向量,并创建一个带有指向这些对象的指针的向量,然后随机洗牌最后一个向量。如果我们用指针遍历向量,那么缓存局部性会丢失吗?

最后一种情况在我的程序中经常发生,我有City对象,然后有大约200个指向这些城市的指针向量。为了避免每个City有200个实例,我使用了一个指针向量而不是一个Cities向量。

这个问题没有简单的答案。您需要了解系统如何与内存进行交互,在容器上执行哪些操作,以及哪些操作是"重要的"。但是通过理解这些概念以及什么影响什么,你可以更好地理解事物是如何工作的。下面是关于这个话题的一些"讨论"。

"缓存局部性"主要是关于"将内容保存在缓存中"。换句话说,如果你先看A,然后看B,而且A离B很近,它们可能会一起被加载到缓存中。

如果对象足够大,它们填满了一条或多条缓存行(现代CPU的缓存行为64-128字节,移动CPU有时更小),"下一个对象"无论如何都不会在缓存中[1],因此"vector中的下一个元素"的缓存局部性不太重要。对象越小,您获得的效果就越好——假设您按照存储对象的顺序访问它们。如果您选择一个随机数,那么其他因素开始变得重要[2],缓存局部性就不那么重要了。

另一方面,当对象变大时,在向量内移动它们(包括增长、删除、插入以及"随机洗牌")将会花费更多的时间,因为复制更多的数据会变得更广泛。

当然,与直接从vector对象中读取元素相比,从指针中读取总是需要进一步的步骤,因为在我们能够获得指向对象中的实际数据之前,需要"读取"指针本身。同样,这在随机访问事物时变得更加重要。

我总是从"最简单的"开始(这取决于代码的整体结构,例如,有时创建指针向量更容易,因为你必须首先动态创建对象)。无论如何,系统中的大多数代码都不是性能关键的,所以为什么要担心它的性能-只要让它工作,如果它没有出现在你的性能测量中,就让它去吧。

当然,如果你要在容器中进行大量的对象移动,也许vector并不是最好的容器。这就是为什么有多个容器变体- vector, list, map, tree, deque -因为它们在访问和插入/删除以及线性遍历数据方面具有不同的特性。

哦,在你的例子中,你谈到了200个城市对象——好吧,它们可能都适合任何现代CPU的缓存。把它们放在一个向量中。除非一个城市包含了居住在这个城市的每个人的名单……但这可能应该是一个vector(或其他容器对象)本身。

作为一个实验,编写一个程序,对std::vector<int>std::vector<int*>进行相同的操作[例如用随机数填充,然后对元素进行排序],然后制作一个大对象[在那里放置一些整数数组,或其他类似的数组],其中有一个整数,以便您可以对其进行完全相同的操作。改变存储对象的大小,看看它的行为。在您的系统中,拥有指针比拥有普通对象更有好处。当然,也要改变元素的数量,看看有什么效果。

[1]嗯,现代处理器使用缓存预取,它可能会推测地将"下一个数据"加载到缓存中,但我们当然不能依赖于这一点。

[2]一个极端的例子是拥有大量用户(数百万)的电话交换机。在进行调用时,将在表中查找调用方和被调用方。但是,调用方或被调用方在缓存中的可能性几乎为零,因为(假设我们正在处理一个大城市,比如伦敦)每秒发出和接收的呼叫数量非常大。因此缓存变得毫无用处,而且情况会变得更糟,因为处理器也会缓存页表条目,而它们也很可能过期了。对于这类应用程序,CPU设计者有"巨大的页面",这意味着内存被分割成1GB的页面,而不是通常的4K或2MB的页面,这已经存在一段时间了。这减少了在"我们到达正确位置"之前所需的内存读取量。当然,这同样适用于其他各种"大型数据库,不可预测的模式"——航空公司,facebook, stackoverflow都有这类问题。