UNICODE_STRING使用 RtlUnicodeStringToAnsiString 进行ANSI_STRING转
UNICODE_STRING to ANSI_STRING conversion with RtlUnicodeStringToAnsiString
RtlUnicodeStringToAnsiString的文档对其可能的故障相当模糊 - 模糊我的意思是它没有说任何关于它们的事情。
我不完全确定它如何/是否处理不同的编码,或者我的理解是否如此有缺陷以至于它甚至没有进入等式,但为了论证起见,让我们假设输入是 UTF-16。
如果所有字符都在 ASCII 范围内,那么没有问题,它们可能会被截断并丢失高位字节 - 前 128 个 Unicode 码位是 ASCII 字符,UTF-16 将 U+0000 编码为 U+D7FF,在数字上等于码位。[1][2]
注意:UNICODE_STRING有一个 WCHAR* 缓冲区,ANSI_STRING一个 CHAR* 缓冲区,正如预期的那样。
[跳过 129-255 和区域设置/代码页]
超过 255 个字符会怎样?有一个RtlUnicodeToUTF8N函数,所以可以安全地假设它不会转换为UTF-8。
BMP 之外的代码点(代理对之类的)怎么样?
我看到一个函数,它执行类似于以下代码的操作:
char *pTarget = reinterpret_cast<char*>(char_str);
const WCHAR *pSource = reinterpret_cast<const WCHAR*>(wchar_str);
for ( long i = 0; i < targetMaxSizeInBytes; i++ )
{
*pTarget = static_cast<char>(*pSource);
if (L' ' == *pSource)
break;
pTarget++;
pSource++;
}
这会导致任何非 ASCII 字符出现问题,对吗?
更新:
从RbMm的回答中:
RtlUnicodeStringToAnsiString is shell over RtlUnicodeToMultiByteN routine
。
我得到了更多信息:
与RtlUnicodeToMultiByteSize一样,RtlUnicodeToMultiByteN仅支持映射到系统启动时安装的当前系统 ANSI 代码页的预组合 Unicode 字符。
WideCharToMultiByte 有一个选项,如果在转换中使用了无法在指定代码页中表示的字符的默认字符,则会收到通知:
lpUsedDefaultChar [out, optional]
指向指示函数是否在转换中使用默认字符的标志的指针。如果源字符串中的一个或多个字符无法在指定的代码页中表示,则该标志设置为TRUE。否则,该标志将设置为FALSE。此参数可以设置为NULL。
但是,似乎RtlUnicodeToMultiByteN,因此RtlUnicodeStringToAnsiString根本不支持当前代码页之外的字符?
我尝试了一些字符,得到了看似随机的转换(见下文) - 更重要的是,我得到了STATUS_SUCCESS返回。
U+03A3 Σ -> 0n83 'S'
U+03A4 Τ -> 0n63 '?'
U+03A5 Υ -> 0n63 '?'
U+03A6 Φ -> 0n70 'F'
RtlUnicodeStringToAnsiString
在例程RtlUnicodeToMultiByteN
RtlUnicodeToMultiByteN例程转换指定的Unicode 字符串转换为新字符串,使用当前系统ANSI 代码页 (ACP)。翻译后的字符串不一定来自 多字节字符集。
因此,此例程中的任何一个都具有与WideCharToMultiByte
相同的转换CP_ACP
还存在下一个例程:
RtlUnicodeStringToOemString
- 壳RtlUnicodeToOemN
例行公事
RtlUnicodeToOemN例程将给定的 Unicode 字符串转换为 OEM 字符串,使用当前系统OEM 代码页。
因此,此例程与WideCharToMultiByte
具有相同的转换CP_OEMCP
对于UTF-8转换,存在RtlUnicodeToUTF8N
(将 Unicode 字符串转换为 UTF-8 字符串)和RtlUTF8ToUnicodeN
(将 UTF-8 字符串转换为 Unicode 字符串。
对于自定义代码页,可以使用未记录的 API
NTSYSAPI
NTSTATUS
NTAPI
RtlCustomCPToUnicodeN(
_In_ PCPTABLEINFO CustomCP,
_Out_writes_bytes_to_(MaxBytesInUnicodeString, *BytesInUnicodeString) PWCH UnicodeString,
_In_ ULONG MaxBytesInUnicodeString,
_Out_opt_ PULONG BytesInUnicodeString,
_In_reads_bytes_(BytesInCustomCPString) PCH CustomCPString,
_In_ ULONG BytesInCustomCPString
);
这里的关键点是初始化CPTABLEINFO
,所以你可以使用任何USHORT代码页;这里
不确定这是否有帮助,但我之前使用过 WideCharToMultiByte 从 UTF-16 (wchar_t*) 和 UTF-8 (char*) 转换,将CP_UTF8
作为代码页传递。
编辑:我刚刚记下了内核标签。我引用的函数处于用户模式(kernel32.dll),因此可能对内核模式代码没有用。:(
- cppcheck在const std::string[]上引发警告
- 将std::string传递给WriteConsole API
- 为std::string的某个索引赋值
- std中有类似find_last_of的函数,而string中没有
- 使用 std::string () const 函数启动线程或未来
- 使用char类型将decimal转换为string,将string转换为decimal
- 迭代和比较映射<字符串、矢量<string>> c++ 中的值
- 当我们进行一些操作时,应该使用什么'std::string'或'std::stringstream'?
- 将向量解析<string>为字符串
- 'string.assign(string.data(), 5)' 是明确定义的还是 UB?
- 如何更改大小(std::string)
- "string.h"在构建适用于iOS的qt应用程序中找不到消息
- C++:如何将 unix 时间的字符串转换为 *tm?(使用时间错误:"cannot convert 'String' to 'tm*' ")
- std::string 的对象真的可以移动吗?
- 与'operator='不匹配(操作数类型'String'且"void")
- SegFault 同时使用 std::string::operator+= 和函数作为参数
- 无法从 std::string 中提取C++ Unicode 符号
- std::string 构造函数如何处理固定大小的 char[]?
- <string> 使用 for 循环写入向量
- 确切地说,如何解释 std::getline(stream, string) 函数在C++中填充的字符串