填充未知大小的 std::vector 的最快方法
The fastest way to populate std::vector of unknown size
我有一长串数据(n个实体)。此数组中的每个对象都有一些值(假设,对象的 m 值)。我有一个周期,比如:
myType* A;
// reading the array of objects
std::vector<anotherType> targetArray;
int i, j, k = 0;
for (i = 0; i < n; i++)
for (j = 0; j < m; j++)
{
if (check((A[i].fields[j]))
{
// creating and adding the object to targetArray
targetArray[k] = someGenerator(A[i].fields[j]);
k++;
}
}
在某些情况下,我有 n * m 个有效对象,在某些 (n * m)/10 或更少。
问题是我如何为targetArray
分配内存?
targetArray.reserve(n*m);
// Do work
targetArray.shrink_to_fit();在不生成对象的情况下计算元素,然后根据需要分配尽可能多的内存,并再次循环。
在创建新对象的每次迭代中调整数组的大小。
我看到我的每一种方法都有一个巨大的战术错误。是另一种方法吗?
你在这里所做的称为过早优化。默认情况下,std::vector
将成倍增加其内存占用量,因为它会耗尽内存来存储新对象。例如,第一个push_back
将分配 2 个元素。第三个push_back
将使尺寸增加一倍等。只要坚持使用push_back
并让您的代码正常工作即可。
只有当上述方法证明自己是设计中的瓶颈时,才应该开始考虑内存分配优化。如果发生这种情况,我认为最好的选择是为许多有效对象提出一个很好的近似值,然后只在向量上调用reserve()
。有点像你的第一种方法。只需确保收缩以适应实现是正确的,因为向量不喜欢收缩。你必须使用swap
.
在每一步调整数组大小是不好的,除非您努力尝试,否则std::vector
不会真正做到这一点。
通过对象列表进行额外的循环会有所帮助,但它也可能受到伤害,因为您很容易浪费 CPU 周期、膨胀 CPU 缓存等。如有疑问 - 分析它。
典型的方法是使用 targetArray.push_back()。 这将在需要时重新分配内存,并避免两次传递数据。 它有一个用于重新分配内存的系统,使其非常高效,随着矢量变大,重新分配更少。
但是,如果您的 check() 函数非常快,则可以通过遍历数据两次、确定需要多少内存并使向量大小开始获得更好的性能。 不过,只有在分析确定确实有必要的情况下,我才会这样做。
- 使 std::vector 分配对齐内存的现代方法
- 我无法使用C++指针指向类方法返回的 std::vector
- 在自定义 std::vector-like 容器中处理指针和非指针模板类型的最佳方法是什么?
- 在 std::vector<无符号字符中存储任意数据的方法>
- 连接和压缩标准::vector<std::字符串的最佳方法>
- C++中的多维数据集:从 std::vector 的 2D 数据到 std::vector 的 2D 网格的最干净方法?
- 向后迭代 std::array 或 std::vector 的正确方法是什么?
- 使用 std::vector::swap 方法在C++中交换两个不同的向量是否安全?
- 有没有更快的方法可以在 std::vector 中插入元素
- 为什么 vector 的方法调整大小会创建一个额外的对象?
- 将vector<vector<double>>从x86平台中创建的一个进程发送到x64中构建的另一个进程的最快方法是什么
- 使输出流式处理运算符适用于 boost::variant<std::vector<int>、int、double 的正确方法是什么>
- 释放 std::vector 中指针内存的最有效方法是什么?
- 编译错误 std::vector<std::shared_ptr<T>>迭代器和擦除方法
- C++ std::vector 赋值方法
- 使用虚拟变量对 std::vector 内部循环进行切片的最佳方法
- 如何在不使用 vector::erase() 的情况下编写自定义 Vector 方法来删除元素?
- STL vector.insert 方法期望_InputIterator作为参数
- 动态创建 std::vector 并将其传递给另一个函数的各种方法
- 从 std::vector 创建 OpenCV 垫子的有效方法