在 c++ 中复制和操作大型密集 2D 数组的最快方法是什么
What's the fastest way to copy and manipulate large, dense 2D arrays in c++
我正在尝试优化我的代码,利用多核处理器的优势,复制任何操作大型密集数组。
用于复制:我有一个大的密集数组(大约6000x100000),我需要从中提取15x100000个子数组来执行几个计算。管道由许多线性代数函数组成,这些函数由blas处理,blas是多核的。与线性代数相比,提取数据的时间是否真的很重要是一个悬而未决的问题,但我想谨慎行事,确保数据复制是优化的。
用于操作:我有许多不同的函数通过元素或行来操作数组。如果这些都是多核的,那就更好了。
我的问题是:最好使用正确的框架(OpenML, OpenCL),让所有的神奇发生在编译器上,或者有好的函数/库可以更快地做到这一点?
您的起点应该是良好的旧memcpy
。一些长期痴迷于"模仿表演"的人的建议。
- 阅读每个程序员应该知道的关于内存的知识
- 测试您的系统
memcpy
性能,例如memcpy_bench
函数。 - 测试
memcpy
在多个核心上运行时的可伸缩性,例如这里的multi_memcpy_bench
。(除非你使用的是多套接字NUMA硬件,否则我想你不会看到多线程复制的太多好处)。 - 深入研究系统的内存实现并理解它们。你发现大部分时间都在一个单独的
rep movsd
里度过的日子早已过去了;上次我查看了gcc和Intel编译器的crt,它们都根据相对于CPU缓存大小的副本大小改变了策略。 - 在Intel上,了解非缓存污染存储指令(例如
movntps
)的优势,因为与传统方法(您将在4中看到它们的使用)相比,它们可以实现显着的吞吐量改进。 - 能够访问并知道如何使用采样分析器来确定应用程序在复制操作上花费了多少时间。还有更高级的工具,可以查看CPU性能计数器,并告诉你各种各样的事情关于不同的缓存正在做什么等等。
- (高级主题)注意TLB,以及什么时候大型页面可以提供帮助。
但我的期望是,与任何线性繁重的工作相比,您的副本将是相当小的开销。不过,知道这些数字是什么是件好事。我不期望OpenCL或CPU的任何在这里神奇地提供任何改进(除非你的系统的内存实现得很差);在我看来,最好是更详细地挖掘这些东西,深入了解指令、寄存器、缓存行和页面层面上实际发生的基本情况,而不是通过在上面分层另一个抽象层来避开这些。
当然,如果你正在考虑将你的代码从你目前正在使用的任何多核BLAS库移植到GPU加速线性代数版本,这就变成了一个完全不同(而且更复杂)的问题(见下面JayC的评论)。如果你想要实质性的性能提升,你当然应该考虑一下。
相关文章:
- 2D数组来自文本输入,中间有空格
- 如何使用用户输入在C++中正确填充2D数组
- 如何在C++中检查2D数组中负值的输入验证
- 当我在main中声明了我的2d数组时,为什么我的程序会退出
- 如何将以逗号和空格分隔的整数读取到 2D 数组中?
- 如何在C++函数中声明静态 2D 数组?
- 如何声明一个可以在整个程序中使用的全局 2d 3d 4d .. 数组(堆版本)变量?
- 我已经阅读了很多关于 2d 数组的信息,但我在作业中使用它时遇到了麻烦
- 使用矢量将文本文件中的输入存储到 2D 数组中
- 获取 2D 数组 c++ 中的所有数字对
- 这是使用回溯的 nqueen 问题,但我使用了动态 2d 数组,我的程序编译良好,但不返回任何输出
- 如何在构造函数中使用初始值设定项设置具有相同值的 2d 数组?
- 在 Python 和 c++ 2d 数组初始化之间.这是怎麽?为什么呢?
- 如何打印 2D 字符数组C++
- 如何将数组 2d 作为参数从函数传递并返回数组 2d 此函数
- 数组 2D 多个值
- 创建数组数组 (2D),而无需在 Java 中初始化内部数组
- 如何在C++中将文本文件传输到数组2D
- 从同一类的另一个方法调用数组2D-C++
- 获取地址在数组2d中的位置