在 c++ 中复制和操作大型密集 2D 数组的最快方法是什么

What's the fastest way to copy and manipulate large, dense 2D arrays in c++

本文关键字:数组 2D 是什么 方法 c++ 复制 大型 操作      更新时间:2023-10-16

我正在尝试优化我的代码,利用多核处理器的优势,复制任何操作大型密集数组。

用于复制:我有一个大的密集数组(大约6000x100000),我需要从中提取15x100000个子数组来执行几个计算。管道由许多线性代数函数组成,这些函数由blas处理,blas是多核的。与线性代数相比,提取数据的时间是否真的很重要是一个悬而未决的问题,但我想谨慎行事,确保数据复制是优化的。

用于操作:我有许多不同的函数通过元素或行来操作数组。如果这些都是多核的,那就更好了。

我的问题是:最好使用正确的框架(OpenML, OpenCL),让所有的神奇发生在编译器上,或者有好的函数/库可以更快地做到这一点?

您的起点应该是良好的旧memcpy。一些长期痴迷于"模仿表演"的人的建议。

  1. 阅读每个程序员应该知道的关于内存的知识
  2. 测试您的系统memcpy性能,例如memcpy_bench函数。
  3. 测试memcpy在多个核心上运行时的可伸缩性,例如这里的multi_memcpy_bench。(除非你使用的是多套接字NUMA硬件,否则我想你不会看到多线程复制的太多好处)。
  4. 深入研究系统的内存实现并理解它们。你发现大部分时间都在一个单独的rep movsd里度过的日子早已过去了;上次我查看了gcc和Intel编译器的crt,它们都根据相对于CPU缓存大小的副本大小改变了策略。
  5. 在Intel上,了解非缓存污染存储指令(例如movntps)的优势,因为与传统方法(您将在4中看到它们的使用)相比,它们可以实现显着的吞吐量改进。
  6. 能够访问并知道如何使用采样分析器来确定应用程序在复制操作上花费了多少时间。还有更高级的工具,可以查看CPU性能计数器,并告诉你各种各样的事情关于不同的缓存正在做什么等等。
  7. (高级主题)注意TLB,以及什么时候大型页面可以提供帮助。

但我的期望是,与任何线性繁重的工作相比,您的副本将是相当小的开销。不过,知道这些数字是什么是件好事。我不期望OpenCL或CPU的任何在这里神奇地提供任何改进(除非你的系统的内存实现得很差);在我看来,最好是更详细地挖掘这些东西,深入了解指令、寄存器、缓存行和页面层面上实际发生的基本情况,而不是通过在上面分层另一个抽象层来避开这些。

当然,如果你正在考虑将你的代码从你目前正在使用的任何多核BLAS库移植到GPU加速线性代数版本,这就变成了一个完全不同(而且更复杂)的问题(见下面JayC的评论)。如果你想要实质性的性能提升,你当然应该考虑一下。