将BSONObj对象存储在std::vector中会与大型文档发生冲突

Storing BSONObj object in std::vector crashes with big documents

本文关键字:大型 文档 冲突 vector 对象 BSONObj 存储 std      更新时间:2023-10-16

我有以下代码片段,它从查询游标累积BSON文档,然后进行处理:

// Accumulate
std::vector<BSONObj> results;
while (cursor->more()) {
  BSONObj r = cursor->nextSafe();
  results.push_back(r);
}
...
// Process it (example)
for (unsigned int ix = 0; ix < results.size(); ix++) {
  BSONElement be = results[ix].getField("_id");
  // Do somtething with 'be'
  ...
}

这段代码在一段时间(几个月)以来一直运行良好,但我们最近发现,对于DB中的大型文档(约1.1MB),results[ix].getField("_id")语句会与segfault一起崩溃。这是回溯的顶部:

(gdb) bt
#0  readNative<int> (offset=0, t=<synthetic pointer>, this=<optimized out>) at src/mongo/base/data_view.h:46
#1  readNative<int> (offset=0, this=<optimized out>) at src/mongo/base/data_view.h:53
#2  readLE<int> (offset=0, this=<optimized out>) at src/mongo/base/data_view.h:59
#3  objsize (this=0x7f74340022e0) at src/mongo/bson/bsonobj.h:309
#4  BSONObjIterator (jso=..., this=<synthetic pointer>) at src/mongo/bson/bsonobjiterator.h:42
#5  mongo::BSONObj::getField (this=0x7f74340022e0, name=...) at src/mongo/bson/bsonobj.cpp:635
...

我用results.push_back(r.copy())而不是results.push_back(r)解决了这个问题。因此,错误可能是由于r对象在while块作用域结束时被破坏而导致的,从而使向量中的副本处于不稳定状态。在不将r的副本作为新变量的情况下推回块范围似乎可以解决问题。

因此,我有以下问题:

  1. 将查询结果中得到的BSONObj存储在std::vector中的最佳方式是什么?我想我已经找到了一个合理的解决方案,但不确定这是否是最好的解决方案。

  2. 为什么使用push_back(r)的代码适用于小型文档?如果正确的方法是使用r.copy()来避免在while块范围结束时破坏r的问题,我理解它应该总是失败,而不仅仅是在1.1MB左右的对象的情况下。

我使用的是MongoDB C++驱动程序legacy-1.0.7(在这种情况下,它可能会有所帮助,或者问题可能与特定版本的MongoDB C++驱动器有关)。

nextSafe返回的BSONObj对象不拥有它们的数据,并且在随后调用nextSafe时会使其无效。

因此,向量中填充了无效的BSONObj对象。

相反,在返回向量之前,对光标结果调用BSONObj::getOwned()。

如果你在AddressSanitizer或valgrind下运行你的程序,你几乎肯定会看到免费类型错误后的使用。