帮助一个矢量缓存局部性?(c++)
Helps a vector for cache locality? (C++)
上周我读到了一些很棒的概念,比如缓存局部性和cpu中的流水线。虽然这些概念很容易理解,但我有两个问题。假设可以在对象向量和指向对象的指针向量之间进行选择(就像这个问题一样)。
那么使用指针的一个参数是,变换较大的对象可能代价高昂。然而,我无法找到何时应该将对象称为large。几个字节的对象已经很大了吗?
指针的一个参数是丢失缓存局部性。如果使用两个向量,其中第一个包含对象并且不会被重新排序,第二个包含指向这些对象的指针,会有帮助吗?假设我们有一个包含200个对象的向量,并创建一个带有指向这些对象的指针的向量,然后随机洗牌最后一个向量。如果我们用指针遍历向量,那么缓存局部性会丢失吗?
最后一种情况在我的程序中经常发生,我有City对象,然后有大约200个指向这些城市的指针向量。为了避免每个City有200个实例,我使用了一个指针向量而不是一个Cities向量。
这个问题没有简单的答案。您需要了解系统如何与内存进行交互,在容器上执行哪些操作,以及哪些操作是"重要的"。但是通过理解这些概念以及什么影响什么,你可以更好地理解事物是如何工作的。下面是关于这个话题的一些"讨论"。
"缓存局部性"主要是关于"将内容保存在缓存中"。换句话说,如果你先看A,然后看B,而且A离B很近,它们可能会一起被加载到缓存中。
如果对象足够大,它们填满了一条或多条缓存行(现代CPU的缓存行为64-128字节,移动CPU有时更小),"下一个对象"无论如何都不会在缓存中[1],因此"vector中的下一个元素"的缓存局部性不太重要。对象越小,您获得的效果就越好——假设您按照存储对象的顺序访问它们。如果您选择一个随机数,那么其他因素开始变得重要[2],缓存局部性就不那么重要了。
另一方面,当对象变大时,在向量内移动它们(包括增长、删除、插入以及"随机洗牌")将会花费更多的时间,因为复制更多的数据会变得更广泛。
当然,与直接从vector对象中读取元素相比,从指针中读取总是需要进一步的步骤,因为在我们能够获得指向对象中的实际数据之前,需要"读取"指针本身。同样,这在随机访问事物时变得更加重要。
我总是从"最简单的"开始(这取决于代码的整体结构,例如,有时创建指针向量更容易,因为你必须首先动态创建对象)。无论如何,系统中的大多数代码都不是性能关键的,所以为什么要担心它的性能-只要让它工作,如果它没有出现在你的性能测量中,就让它去吧。
当然,如果你要在容器中进行大量的对象移动,也许vector并不是最好的容器。这就是为什么有多个容器变体- vector
, list
, map
, tree
, deque
-因为它们在访问和插入/删除以及线性遍历数据方面具有不同的特性。
哦,在你的例子中,你谈到了200个城市对象——好吧,它们可能都适合任何现代CPU的缓存。把它们放在一个向量中。除非一个城市包含了居住在这个城市的每个人的名单……但这可能应该是一个vector
(或其他容器对象)本身。
作为一个实验,编写一个程序,对std::vector<int>
和std::vector<int*>
进行相同的操作[例如用随机数填充,然后对元素进行排序],然后制作一个大对象[在那里放置一些整数数组,或其他类似的数组],其中有一个整数,以便您可以对其进行完全相同的操作。改变存储对象的大小,看看它的行为。在您的系统中,拥有指针比拥有普通对象更有好处。当然,也要改变元素的数量,看看有什么效果。
[1]嗯,现代处理器使用缓存预取,它可能会推测地将"下一个数据"加载到缓存中,但我们当然不能依赖于这一点。
[2]一个极端的例子是拥有大量用户(数百万)的电话交换机。在进行调用时,将在表中查找调用方和被调用方。但是,调用方或被调用方在缓存中的可能性几乎为零,因为(假设我们正在处理一个大城市,比如伦敦)每秒发出和接收的呼叫数量非常大。因此缓存变得毫无用处,而且情况会变得更糟,因为处理器也会缓存页表条目,而它们也很可能过期了。对于这类应用程序,CPU设计者有"巨大的页面",这意味着内存被分割成1GB的页面,而不是通常的4K或2MB的页面,这已经存在一段时间了。这减少了在"我们到达正确位置"之前所需的内存读取量。当然,这同样适用于其他各种"大型数据库,不可预测的模式"——航空公司,facebook, stackoverflow都有这类问题。
- cmake更新缓存的变量
- 试图对缓存进行跨步测试,但程序并没有结束
- 缓存std::数组的选定元素,并在c++中自动保持其一致性
- 通过ccmake在cmake中缓存依赖选项
- 使用宏扩展的泛型:为什么指令缓存使用不当?
- 如何使缓存线程安全
- 存储指令是否会阻止缓存未命中的后续指令?
- 缓存局部性与函数调用
- Qt 网页程序集缓存
- 多线程减慢程序速度:无错误共享,无互斥锁,无缓存未命中,无小工作量
- std::shared_ptr vs std::make_shared:意外的缓存未命中和分支预测
- 多个 rocksdb 实例:使用单个共享缓存还是多个独立缓存?
- 无法链接 LRU 缓存C++
- 空函数的参数是否加载到缓存中?
- 是否可以检查变量是否位于 L1/L2/L3 缓存中
- dynamic_cast每次调用是否比具有空检查的缓存变量更昂贵?
- C++:如何在从给定缓存中排除数字的同时生成随机数
- 使用unique_ptr缓存局部性
- 使用结构/类增加缓存空间局部性
- 帮助一个矢量缓存局部性?(c++)