帮助一个矢量缓存局部性?(c++)

Helps a vector for cache locality? (C++)

本文关键字：局部性缓存 c++ 一个帮助更新时间：2023-10-16

上周我读到了一些很棒的概念，比如缓存局部性和cpu中的流水线。虽然这些概念很容易理解，但我有两个问题。假设可以在对象向量和指向对象的指针向量之间进行选择(就像这个问题一样)。

那么使用指针的一个参数是，变换较大的对象可能代价高昂。然而，我无法找到何时应该将对象称为large。几个字节的对象已经很大了吗?

指针的一个参数是丢失缓存局部性。如果使用两个向量，其中第一个包含对象并且不会被重新排序，第二个包含指向这些对象的指针，会有帮助吗?假设我们有一个包含200个对象的向量，并创建一个带有指向这些对象的指针的向量，然后随机洗牌最后一个向量。如果我们用指针遍历向量，那么缓存局部性会丢失吗?

最后一种情况在我的程序中经常发生，我有City对象，然后有大约200个指向这些城市的指针向量。为了避免每个City有200个实例，我使用了一个指针向量而不是一个Cities向量。

这个问题没有简单的答案。您需要了解系统如何与内存进行交互，在容器上执行哪些操作，以及哪些操作是"重要的"。但是通过理解这些概念以及什么影响什么，你可以更好地理解事物是如何工作的。下面是关于这个话题的一些"讨论"。

"缓存局部性"主要是关于"将内容保存在缓存中"。换句话说，如果你先看A，然后看B，而且A离B很近，它们可能会一起被加载到缓存中。

如果对象足够大，它们填满了一条或多条缓存行(现代CPU的缓存行为64-128字节，移动CPU有时更小)，"下一个对象"无论如何都不会在缓存中[1]，因此"vector中的下一个元素"的缓存局部性不太重要。对象越小，您获得的效果就越好——假设您按照存储对象的顺序访问它们。如果您选择一个随机数，那么其他因素开始变得重要[2]，缓存局部性就不那么重要了。

另一方面，当对象变大时，在向量内移动它们(包括增长、删除、插入以及"随机洗牌")将会花费更多的时间，因为复制更多的数据会变得更广泛。

当然，与直接从vector对象中读取元素相比，从指针中读取总是需要进一步的步骤，因为在我们能够获得指向对象中的实际数据之前，需要"读取"指针本身。同样，这在随机访问事物时变得更加重要。

我总是从"最简单的"开始(这取决于代码的整体结构，例如，有时创建指针向量更容易，因为你必须首先动态创建对象)。无论如何，系统中的大多数代码都不是性能关键的，所以为什么要担心它的性能-只要让它工作，如果它没有出现在你的性能测量中，就让它去吧。

当然，如果你要在容器中进行大量的对象移动，也许vector并不是最好的容器。这就是为什么有多个容器变体- vector, list, map, tree, deque -因为它们在访问和插入/删除以及线性遍历数据方面具有不同的特性。

哦，在你的例子中，你谈到了200个城市对象——好吧，它们可能都适合任何现代CPU的缓存。把它们放在一个向量中。除非一个城市包含了居住在这个城市的每个人的名单……但这可能应该是一个vector(或其他容器对象)本身。

作为一个实验，编写一个程序，对std::vector<int>和std::vector<int*>进行相同的操作[例如用随机数填充，然后对元素进行排序]，然后制作一个大对象[在那里放置一些整数数组，或其他类似的数组]，其中有一个整数，以便您可以对其进行完全相同的操作。改变存储对象的大小，看看它的行为。在您的系统中，拥有指针比拥有普通对象更有好处。当然，也要改变元素的数量，看看有什么效果。

[1]嗯，现代处理器使用缓存预取，它可能会推测地将"下一个数据"加载到缓存中，但我们当然不能依赖于这一点。

[2]一个极端的例子是拥有大量用户(数百万)的电话交换机。在进行调用时，将在表中查找调用方和被调用方。但是，调用方或被调用方在缓存中的可能性几乎为零，因为(假设我们正在处理一个大城市，比如伦敦)每秒发出和接收的呼叫数量非常大。因此缓存变得毫无用处，而且情况会变得更糟，因为处理器也会缓存页表条目，而它们也很可能过期了。对于这类应用程序，CPU设计者有"巨大的页面"，这意味着内存被分割成1GB的页面，而不是通常的4K或2MB的页面，这已经存在一段时间了。这减少了在"我们到达正确位置"之前所需的内存读取量。当然，这同样适用于其他各种"大型数据库，不可预测的模式"——航空公司，facebook, stackoverflow都有这类问题。