如何在Linux上使用std库从utf-16转换为utf-32

How to convert from utf-16 to utf-32 on Linux with std library?

本文关键字:utf-16 库从 转换 utf-32 std Linux      更新时间:2023-10-16

在MSVC上将utf-16转换为utf-32很容易-使用C11的codecvt_utf16 locale facet。但是在GCC (GCC (Debian 4.7.2-5) 4.7.2)中,这个新特性似乎还没有实现。有没有一种方法来执行这样的转换在Linux上没有iconv(最好使用转换工具的std库)?

将UTF-16解码为UTF-32非常容易。

您可能希望在编译时检测您正在使用的libc版本,如果检测到libc损坏(没有所需的函数),则部署转换例程。

输入:

  • 指向源UTF-16数据的指针(char16_t *, ushort *,——为了方便UTF16 *);
  • 规模;
  • 指向UTF-32数据的指针(char32_t *, uint *——为了方便UTF32 *)。

代码如下:

void convert_utf16_to_utf32(const UTF16 *input, 
                            size_t input_size, 
                            UTF32 *output) 
{
    const UTF16 * const end = input + input_size;
    while (input < end) {
        const UTF16 uc = *input++;
        if (!is_surrogate(uc)) {
            *output++ = uc; 
        } else {
            if (is_high_surrogate(uc) && input < end && is_low_surrogate(*input))
                *output++ = surrogate_to_utf32(uc, *input++);
            else
                // ERROR
        }
    }
}

留下错误处理。您可能想要在流中插入U+FFFD¹并继续运行,或者只是退出,这完全取决于您。辅助函数很简单:

int is_surrogate(UTF16 uc) { return (uc - 0xd800u) < 2048u; }
int is_high_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xd800; }
int is_low_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xdc00; }
UTF32 surrogate_to_utf32(UTF16 high, UTF16 low) { 
    return (high << 10) + low - 0x35fdc00; 
}

¹Cf. Unicode:

  • §3.9 Unicode编码形式(使用U+FFFD的最佳实践)
  • §5.22 U+FFFD替代的最佳实践

²还要考虑到!is_surrogate(uc)分支是迄今为止最常见的(以及第二个if中的非错误路径),您可能希望使用__builtin_expect或类似的方法进行优化。