填充未知大小的 std::vector 的最快方法

The fastest way to populate std::vector of unknown size

本文关键字：vector 方法 std 未知填充更新时间：2023-10-16

我有一长串数据（n个实体）。此数组中的每个对象都有一些值（假设，对象的 m 值）。我有一个周期，比如：

myType* A; 
// reading the array of objects   
std::vector<anotherType> targetArray;
int i, j, k = 0;
for (i = 0; i < n; i++)
     for (j = 0; j < m; j++)
     { 
         if (check((A[i].fields[j]))
         {
             // creating and adding the object to targetArray
             targetArray[k] = someGenerator(A[i].fields[j]);
             k++;
         }
     }

在某些情况下，我有 n * m 个有效对象，在某些（n * m）/10 或更少。
问题是我如何为targetArray分配内存？

targetArray.reserve(n*m); // Do work targetArray.shrink_to_fit();
在不生成对象的情况下计算元素，然后根据需要分配尽可能多的内存，并再次循环。
在创建新对象的每次迭代中调整数组的大小。

我看到我的每一种方法都有一个巨大的战术错误。是另一种方法吗？

你在这里所做的称为过早优化。默认情况下，std::vector 将成倍增加其内存占用量，因为它会耗尽内存来存储新对象。例如，第一个push_back将分配 2 个元素。第三个push_back将使尺寸增加一倍等。只要坚持使用push_back并让您的代码正常工作即可。

只有当上述方法证明自己是设计中的瓶颈时，才应该开始考虑内存分配优化。如果发生这种情况，我认为最好的选择是为许多有效对象提出一个很好的近似值，然后只在向量上调用reserve()。有点像你的第一种方法。只需确保收缩以适应实现是正确的，因为向量不喜欢收缩。你必须使用swap.

在每一步调整数组大小是不好的，除非您努力尝试，否则std::vector不会真正做到这一点。

通过对象列表进行额外的循环会有所帮助，但它也可能受到伤害，因为您很容易浪费 CPU 周期、膨胀 CPU 缓存等。如有疑问 - 分析它。

典型的方法是使用 targetArray.push_back（）。这将在需要时重新分配内存，并避免两次传递数据。它有一个用于重新分配内存的系统，使其非常高效，随着矢量变大，重新分配更少。

但是，如果您的 check（）函数非常快，则可以通过遍历数据两次、确定需要多少内存并使向量大小开始获得更好的性能。不过，只有在分析确定确实有必要的情况下，我才会这样做。