C++:为什么这个字符串输入失败,而另一个没有

C++: Why does this string input fail while the other does not

本文关键字:另一个 失败 输入 为什么 字符串 C++      更新时间:2023-10-16

我从朋友那里得到了这个问题

#include <string>
#include <vector>
#include <iostream>
void riddle(std::string input)
{
auto strings = std::vector<std::string>{};
strings.push_back(input);
auto raw = strings[0].c_str();
strings.emplace_back("dummy");
std::cout << raw << "n";
}
int main()
{
riddle("Hello world of!"); // Why does this print garbage?
//riddle("Always look at the bright side of life!"); // And why doesn't this?
std::cin.get();
}

我的第一个观察是,当传递到input的单词数超过 3 个单词时,riddle()函数不会产生垃圾。我仍在试图了解为什么第一种情况失败而不是第二种情况失败。无论如何,认为这很有趣。

这是未定义的行为 (UB),这意味着任何事情都可能发生,包括代码工作。 它是 UB,因为emplace_back使指向向量中对象的所有指针无效。发生这种情况是因为向量可能会被重新分配(显然是这样)。

UB 的第一种情况由于短字符串优化 (sso) 而"不起作用"。由于 sso,原始指针指向由矢量直接分配的内存,该内存在重新分配后丢失。

UB 的第二种情况"有效",因为字符串文本对于 SSO 来说太长并且驻留在独立的内存块上。在调整大小期间,字符串对象将从中移动,将文本内存块的所有权移动到新创建的字符串对象。由于内存块只是更改了所有权,因此它在emplace_back后仍然有效。

std::string::c_str()

返回的指针可能会因进一步调用修改对象的其他成员函数而失效。


std::vector::emplace_back

如果发生重新分配,则会修改所有包含的元素。


由于无法知道在调用emplace_back时是否会发生vector重新分配,因此您必须假设随后使用string::c_str()的早期返回值会导致未定义的行为。

由于未定义的行为是 - 未定义 - 任何事情都可能发生。 因此,您的代码可能看起来有效,也可能似乎失败。 无论哪种方式都是错误的。