MSVC14根据源是UTF-8还是UTF-8 BOM来区别对待u8前缀

MSVC14 treats the u8 prefix differently depending on whether the source is UTF-8 or UTF-8 BOM

本文关键字：UTF-8 区别对待 u8 前缀 BOM 还是 MSVC14 更新时间：2023-10-16

我在试用UTF-8和Qt时遇到了一个奇怪的问题，所以我进行了调查。我创建了一个简单的程序，可以在const char[]文本中打印字节：

#include <cstdio>
const char* koshka = "кошка";
const char* utf8_koshka = u8"кошка";
void printhex(const char* str)
{
    for (; *str; ++str)
    {
        printf("%02X ", *str & 0xFF);
    }
    puts("");
}
int main(int argc, char *argv[])
{
    printhex(koshka);
    printhex(utf8_koshka);
    return 0;
}

如果我们用BOM将文件保存为UTF-8，然后从Visual Studio 2015中运行，则会打印出：

3F 3F 3F 3F 3F
D0 BA D0 BE D1 88 D0 BA D0 B0

虽然我真的不明白第一个字符串是从哪里来的，但根据这个UTF-8编码表，第二个字符串应该是什么。

如果完全相同的代码保存为不带BOM的UTF-8，这就是输出：

D0 BA D0 BE D1 88 D0 BA D0 B0 
C3 90 C2 BA C3 90 C2 BE C3 91 CB 86 C3 90 C2 BA C3 90 C2 B0

因此，虽然它导致未固定的const char[]文字以UTF8的形式保存在二进制文件中，但由于某种原因，它会破坏u8前缀。

但是，如果我们使用#pragma execution_character_set("utf-8")强制执行字符集，则在这两种情况下，这两个字符串都打印为D0 BA D0 BE D1 88 D0 BA D0 B0（UTF-8，带BOM和不带BOM）。

我使用Notepad++在编码之间进行转换。

发生了什么事

编辑：

Alan的回答解释了这种行为的原因，但我想补充一句警告。我在使用Qt Creator开发Qt 5.5.1应用程序时遇到了这个问题。在5.5.1中，QString (const char*)构造函数将假定给定字符串编码为UTF-8，因此最终将调用QString::fromUtf8来构造对象。然而，Qt Creator（默认情况下）将每个文件保存为没有BOM的UTF；这导致MSVC将源输入误解为MBCS，这正是这种情况下发生的情况，因此在默认设置下，以下操作将起作用：

QMessageBox::information(0, "test", "кошка");

这将失败（mojibake）：

QMessageBox::information(0, "test", u8"кошка");

解决方案是在"工具"->"选项"->"文本编辑器"中启用BOM表。请注意，这仅适用于MSVC 2015（或实际14.0）；旧版本对C++11的支持较少/没有，而且u8根本不存在，所以如果你在旧版本上使用Qt，最好的办法是依靠编译器因为缺少BOM而感到困惑。

编译器不知道文件的编码是什么。它试图通过查看输入的前缀来猜测。如果它看到一个UTF-8编码的BOM，那么它就认为它正在处理UTF-8。如果没有这一点，也没有任何明显的UTF-16字符，它将默认为其他字符。（ISO拉丁语1？当地常见的MBCS是什么？）

如果没有BOM，编译器无法确定您的输入是UTF-8编码的，因此假设它不是。

然后，它将UTF-8编码的每个字节视为单个字符；对于简单的文字，它被逐字复制，对于u8字符串，它被编码为UTF-8，给出了您看到的双重编码。

唯一的解决方案似乎是强制BOM；或者，使用UTF-16，这正是Windows平台所喜欢的。

也参见MSVC++中的源字符集编码规范-finput charset＝charset"；。