MSVC14根据源是UTF-8还是UTF-8 BOM来区别对待u8前缀
MSVC14 treats the u8 prefix differently depending on whether the source is UTF-8 or UTF-8 BOM
我在试用UTF-8和Qt时遇到了一个奇怪的问题,所以我进行了调查。我创建了一个简单的程序,可以在const char[]
文本中打印字节:
#include <cstdio>
const char* koshka = "кошка";
const char* utf8_koshka = u8"кошка";
void printhex(const char* str)
{
for (; *str; ++str)
{
printf("%02X ", *str & 0xFF);
}
puts("");
}
int main(int argc, char *argv[])
{
printhex(koshka);
printhex(utf8_koshka);
return 0;
}
如果我们用BOM将文件保存为UTF-8,然后从Visual Studio 2015中运行,则会打印出:
3F 3F 3F 3F 3F
D0 BA D0 BE D1 88 D0 BA D0 B0
虽然我真的不明白第一个字符串是从哪里来的,但根据这个UTF-8编码表,第二个字符串应该是什么。
如果完全相同的代码保存为不带BOM的UTF-8,这就是输出:
D0 BA D0 BE D1 88 D0 BA D0 B0
C3 90 C2 BA C3 90 C2 BE C3 91 CB 86 C3 90 C2 BA C3 90 C2 B0
因此,虽然它导致未固定的const char[]
文字以UTF8的形式保存在二进制文件中,但由于某种原因,它会破坏u8
前缀。
但是,如果我们使用#pragma execution_character_set("utf-8")
强制执行字符集,则在这两种情况下,这两个字符串都打印为D0 BA D0 BE D1 88 D0 BA D0 B0
(UTF-8,带BOM和不带BOM)。
我使用Notepad++在编码之间进行转换。
发生了什么事
编辑:
Alan的回答解释了这种行为的原因,但我想补充一句警告。我在使用Qt Creator开发Qt 5.5.1应用程序时遇到了这个问题。在5.5.1中,QString (const char*)
构造函数将假定给定字符串编码为UTF-8,因此最终将调用QString::fromUtf8
来构造对象。然而,Qt Creator(默认情况下)将每个文件保存为没有BOM的UTF;这导致MSVC将源输入误解为MBCS,这正是这种情况下发生的情况,因此在默认设置下,以下操作将起作用:
QMessageBox::information(0, "test", "кошка");
这将失败(mojibake):
QMessageBox::information(0, "test", u8"кошка");
解决方案是在"工具"->"选项"->"文本编辑器"中启用BOM表。请注意,这仅适用于MSVC 2015(或实际14.0);旧版本对C++11的支持较少/没有,而且u8
根本不存在,所以如果你在旧版本上使用Qt,最好的办法是依靠编译器因为缺少BOM而感到困惑。
编译器不知道文件的编码是什么。它试图通过查看输入的前缀来猜测。如果它看到一个UTF-8编码的BOM,那么它就认为它正在处理UTF-8。如果没有这一点,也没有任何明显的UTF-16字符,它将默认为其他字符。(ISO拉丁语1?当地常见的MBCS是什么?)
如果没有BOM,编译器无法确定您的输入是UTF-8编码的,因此假设它不是。
然后,它将UTF-8编码的每个字节视为单个字符;对于简单的文字,它被逐字复制,对于u8字符串,它被编码为UTF-8,给出了您看到的双重编码。
唯一的解决方案似乎是强制BOM;或者,使用UTF-16,这正是Windows平台所喜欢的。
也参见MSVC++中的源字符集编码规范-finput charset=charset";。
- C++中std::resize(n)和std::shrink_to_fit之间的区别
- HEX值到wchar_t字符(UTF-8)的转换
- int(c) 和 c-'0' 之间的区别。C++
- 向量 <int> a {N, 0} 和 int arr a[N] = {0} 的时间复杂度有什么区别
- C++ - "!pointer"和"pointer == nullptr"的区别?
- C++ 使用 assign 函数的字符串与直接使用 '=' 更改值的字符串之间的区别
- std::atomic和std::condition_variable wait,notify_*方法之间的区别
- 在 .h 文件中的类中声明静态变量和在.cpp文件中声明"global"变量有什么区别
- 我是C++编程的新手,这些代码之间有什么区别,我应该使用哪一个
- 在 const 函数中通过引用和指针返回之间的区别
- 我想知道长双倍和双倍之间的区别
- 返回常量对象引用 (getter) 和仅返回字符串有什么区别?
- 返回递归调用和仅递归调用的区别
- 带有Protobuf序列化的C++Hazelcast:字符串不是UTF-8格式的
- 转换特殊字符(UTF-8)
- Qt:remove() 和 rmdir() 有什么区别
- printf 和 std::ostream 在 Windows 控制台下使用 UTF-8 输出有什么区别
- 为什么隐式和显式删除的move构造函数被区别对待
- MSVC14根据源是UTF-8还是UTF-8 BOM来区别对待u8前缀
- 当涉及到友谊时,为什么别名模板会与别名类型模板区别对待