如何在Linux上使用std库从utf-16转换为utf-32
How to convert from utf-16 to utf-32 on Linux with std library?
在MSVC上将utf-16转换为utf-32很容易-使用C11的codecvt_utf16 locale facet。但是在GCC (GCC (Debian 4.7.2-5) 4.7.2)中,这个新特性似乎还没有实现。有没有一种方法来执行这样的转换在Linux上没有iconv(最好使用转换工具的std库)?
将UTF-16解码为UTF-32非常容易。
您可能希望在编译时检测您正在使用的libc版本,如果检测到libc损坏(没有所需的函数),则部署转换例程。
输入:- 指向源UTF-16数据的指针(
char16_t *
,ushort *
,——为了方便UTF16 *
); - 规模;
- 指向UTF-32数据的指针(
char32_t *
,uint *
——为了方便UTF32 *
)。
代码如下:
void convert_utf16_to_utf32(const UTF16 *input,
size_t input_size,
UTF32 *output)
{
const UTF16 * const end = input + input_size;
while (input < end) {
const UTF16 uc = *input++;
if (!is_surrogate(uc)) {
*output++ = uc;
} else {
if (is_high_surrogate(uc) && input < end && is_low_surrogate(*input))
*output++ = surrogate_to_utf32(uc, *input++);
else
// ERROR
}
}
}
留下错误处理。您可能想要在流中插入U+FFFD
¹并继续运行,或者只是退出,这完全取决于您。辅助函数很简单:
int is_surrogate(UTF16 uc) { return (uc - 0xd800u) < 2048u; }
int is_high_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xd800; }
int is_low_surrogate(UTF16 uc) { return (uc & 0xfffffc00) == 0xdc00; }
UTF32 surrogate_to_utf32(UTF16 high, UTF16 low) {
return (high << 10) + low - 0x35fdc00;
}
¹Cf. Unicode:
- §3.9 Unicode编码形式(使用U+FFFD的最佳实践)
- §5.22 U+FFFD替代的最佳实践
²还要考虑到!is_surrogate(uc)
分支是迄今为止最常见的(以及第二个if中的非错误路径),您可能希望使用__builtin_expect
或类似的方法进行优化。
相关文章:
- 将C++ std::string 转换为 UTF-16-LE 编码的字符串
- 从/到 UTF-8/UTF-16 的转换需要(例如:utf8 -> 代码点,然后代码点到 utf16)或(例如:utf8 -> utf16)?
- 通过分隔符分隔包含 UTF-16 BE 文本的uint8_t数组
- 如何从Little Endian UTF-16编码字节中获取C++std::string
- 如何使用野兽C++库从HTTP重定向到HTTPS?
- C++ UTF-8/ASCII to UTF-16 in MFC
- 如何使用c++中的ipp库从信号中进行fft
- 如何C++ WCOUT UTF-16 编码的字符数组?
- 使用点云库从C++中的 URL 读取文件,而不是本地文件
- 这是我的程序,C++使用 OpenCv 库从数据集中读取图像序列,但它没有运行
- 在这种情况下,UTF-16 和 UTF-32 的 BOM 是强制性的
- 将旧版C++标准库从GNU版本移动到LLVM版本中的版本
- 查找十六进制字符串是 utf-8 或 utf-16
- 可以将 UTF-8/UTF-16 选项传递给从C++调用的 JVM
- UTF 16 到 UTF8,使用 C++ 中的 utf8 库
- 将字节数组从UTF-16转换为UTF-8
- 在没有外部库的情况下将 utf-16 文本文件正确读取到字符串中
- 如何在Linux上使用std库从utf-16转换为utf-32
- 从char*创建UTF-16字符串
- 什么是用于 UTF-8/UTF-16 文本编码C++小型 LGPL 库?