如何在C++中存储大矩阵

How to store a big matrix in C++

本文关键字：存储 C++ 更新时间：2023-10-16

我正在编写一个关于图像处理的程序。我需要存储一个大小为 480 000 列和 480 000 行的整数方阵。任何想法我该怎么做？

不要使用 480,000 x 480,000 矩阵。

拥有这个完整矩阵（假设它不是稀疏的）的唯一原因是随机访问（即能够随时访问任何元素）。即使你可以以某种方式实现这一点（存储0.9Tb），数据访问也会非常慢（特别是在将其映射到文件时），使你的算法效率低下。

相反，想出一种方法来重写你的算法，这样它就不需要在任何时候随机访问整个矩阵，而可能只需要随机访问其中的一小部分，你在需要时创建（然后删除），或者任何其他减少存储这么多数据的方法。

高性能不仅意味着减少计算量，而且至关重要的是减少随机数据访问。

您可以将其存储在文件中，并将所需的矩阵部分映射到内存中。例如 http://en.wikipedia.org/wiki/Memory-mapped_file

如果您需要同时处理整个矩阵，并且大多数矩阵元素都是空白的，那么您应该考虑使用某种稀疏矩阵数据结构。许多线性代数库支持稀疏矩阵（Boost.uBlas，Eigen等），以及一些图像处理库（OpenCV等）。

这取决于矩阵将具有的特征。

它会有很多 0 吗？如果是这样，您可以使用不存储 0 的稀疏矩阵实现。

如果是波段

矩阵，则可以只存储对角线波段。

您必须查看矩阵属性，看看在哪里可以节省内存。如果找不到任何允许此类优化的属性，则必须将其存储在文件中。

如果它是一个稀疏矩阵，你需要做一些线性代数，我会使用一些科学线性代数库，如Trilinos（使用Epetra或Tpetra包）或Hypre。这些是高度并行的库（如果可以并行运行代码，那就太好了）。我从未使用过Hypre（尽管我听说它的性能比Trilinos更好），所以我不能告诉你任何关于它的信息。Trilinos 是一个巨大的（我会说太大的）库，大约有 50-60 个软件包，而且学习起来不是很容易;但是，如果您必须处理巨大的矩阵，那么依靠一些经过良好测试和开发的TPL是有意义的。对于矩阵存储，Epetra/Tpetra 是 Trilinos 中要研究的软件包。