将 Unicode 分配给wchar_t变量

Assigning an Unicode to a wchar_t variable

本文关键字:变量 wchar Unicode 分配      更新时间:2023-10-16

如何将字符向上箭头Unicode分配给wchar_t变量?

wchar_t

Linux上可能是32位,但在Windows 16位上,UTF-16LE编码,有时需要两个wchar_t来存储一个Unicode代码点。

UTF-16LE 和 UTF-16BE 不是线性的,具有不能拆分为两个字符串的对。而且wchar_t是不可移植的。

因此最好使用 UTF-8 和 char .

void append_utf8(string& s, uint cp) {
    if (cp < 0x80 && cp != 0) {
        // Let encode U+0 too (Modified UTF-8), as non-terminator?
        s.append(1, (char) cp);
    } else {
        char cpBytes[6];
        int bi = 0;
        int lastPrefix = 0xC0;
        int lastMask = 0x1F;
        for (;;) {
            int b = 0x80 | (cp & 0x3F);
            cpBytes[bi] = (char)b;
            ++bi;
            cp >>= 6;
            if ((cp & ~lastMask) == 0) {
                cpBytes[bi] = (char) (lastPrefix | cp);
                ++bi;
                break;
            }
            lastPrefix = 0x80 | (lastPrefix >> 1);
            lastMask >>= 1;
        }
        while (bi > 0) {
            --bi;
            s.append(1, cpBytes[bi]);
        }
    }
}
string s;
append_utf8(s, 0x2191): // For U+2191 up arrow.
append_utf8(s, 0x1F913): // For U+01F913 emoji nerd face.

对于 Windows 上的宽字符 (UTF-16),如下所示:

void append_wch(std::wstring& s, uint cp) {
    if (cp < 0x10000) {
        s.append(1, (wchar_t) cp);
    } else {
        cp -= 0x10000;
        uint w = (cp >> 6) + 0xD800;
        s.append(1, (wchar_t) w);
        w = (cp & 0x3FF) + 0xDC00;
        s.append(1, (wchar_t) w);
    }
}

(请注意,我受到Java的影响。