如何在C++中存储大矩阵

How to store a big matrix in C++

本文关键字:存储 C++      更新时间:2023-10-16

我正在编写一个关于图像处理的程序。我需要存储一个大小为 480 000 列和 480 000 行的整数方阵。任何想法我该怎么做?

不要使用 480,000 x 480,000 矩阵。

拥有这个完整矩阵(假设它不是稀疏的)的唯一原因是随机访问(即能够随时访问任何元素)。即使你可以以某种方式实现这一点(存储0.9Tb),数据访问也会非常慢(特别是在将其映射到文件时),使你的算法效率低下。

相反,想出一种方法来重写你的算法,这样它就不需要在任何时候随机访问整个矩阵,而可能只需要随机访问其中的一小部分,你在需要时创建(然后删除),或者任何其他减少存储这么多数据的方法。

高性能不仅意味着减少计算量,而且至关重要的是减少随机数据访问。

您可以将其存储在文件中,并将所需的矩阵部分映射到内存中。例如 http://en.wikipedia.org/wiki/Memory-mapped_file

如果您需要同时处理整个矩阵,并且大多数矩阵元素都是空白的,那么您应该考虑使用某种稀疏矩阵数据结构。许多线性代数库支持稀疏矩阵(Boost.uBlas,Eigen等),以及一些图像处理库(OpenCV等)。

这取决于矩阵将具有的特征。

它会有很多 0 吗?如果是这样,您可以使用不存储 0 的稀疏矩阵实现。

如果是波段

矩阵,则可以只存储对角线波段。

您必须查看矩阵属性,看看在哪里可以节省内存。如果找不到任何允许此类优化的属性,则必须将其存储在文件中。

如果它是一个稀疏矩阵,你需要做一些线性代数,我会使用一些科学线性代数库,如Trilinos(使用Epetra或Tpetra包)或Hypre。这些是高度并行的库(如果可以并行运行代码,那就太好了)。我从未使用过Hypre(尽管我听说它的性能比Trilinos更好),所以我不能告诉你任何关于它的信息。Trilinos 是一个巨大的(我会说太大的)库,大约有 50-60 个软件包,而且学习起来不是很容易;但是,如果您必须处理巨大的矩阵,那么依靠一些经过良好测试和开发的TPL是有意义的。对于矩阵存储,Epetra/Tpetra 是 Trilinos 中要研究的软件包。