Unicode 字符未从文件正确加载

Unicode characters aren't loading properly from file

本文关键字:加载 文件 字符 Unicode      更新时间:2023-10-16

我有一个文本文件,其中包含一些字符,包括一些Unicode字符。我尝试使用以下编码保存此文件,但没有解决问题:UTF8,不带BOM的UTF8,UCS2 BE和UCS2 LE。下面是尝试逐行读取文件的代码。

    std::wifstream infile("my_file.txt");
    wchar_t line[1024];
    while (infile.getline(line, sizeof(line))) { ... }

"line"具有垃圾值代替Unicode,并且在有ASCII字符的情况下具有normal。它的值如下所示:L"此处的普通文本"而不是 L"此处的正常文本"

我尝试了其他变体,例如:

    std::wifstream infile("my_file.txt");
    std::wstring line;
    while (std::getline(infile, line)){ ... }

我也尝试过设置区域设置。我在一台Windows计算机上。如何让 unicode 按预期工作?我更喜欢一种适用于所有平台的格式,但在这个阶段我会接受任何东西。

谢谢。

似乎您需要在输入流中加入区域设置:请参阅 https://stackoverflow.com/a/1275260/1967396

typedef wchar_t ucs4_t;
std::locale old_locale;
std::locale utf8_locale(old_locale,new utf8_codecvt_facet<ucs4_t>);
...
std::wifstream input_file("data.utf8");
input_file.imbue(utf8_locale);
ucs4_t item = 0;
while (ifs >> item) { ... }

示例数据不包含预期的 Unicode 字符

提供的示例数据"此处的正常文本"是 3 字节字节顺序标记 (BOM),指示此和以下是 UTF-8 编码文本"此处的普通文本"。 因此,打开文件的各种方法不会得到"此处的正常文本"。

OP 需要创建包含所需"此处的正常文本"的文件。

Windows 为fopen()中的模式提供了非标准选项,例如 fopen("file.txt", "rccs=UNICODE") .

参见 http://msdn.microsoft.com/en-us/library/yeby3zcb(v=vs.90).aspx

一旦文件确实有"€",甚至可能fopen("file.txt", "r")就可以工作。