UNICODE_STRING使用 RtlUnicodeStringToAnsiString 进行ANSI_STRING转

UNICODE_STRING to ANSI_STRING conversion with RtlUnicodeStringToAnsiString

本文关键字:STRING ANSI 进行 使用 UNICODE RtlUnicodeStringToAnsiString      更新时间:2023-10-16

RtlUnicodeStringToAnsiString的文档对其可能的故障相当模糊 - 模糊我的意思是它没有说任何关于它们的事情。

我不完全确定它如何/是否处理不同的编码,或者我的理解是否如此有缺陷以至于它甚至没有进入等式,但为了论证起见,让我们假设输入是 UTF-16。

如果所有字符都在 ASCII 范围内,那么没有问题,它们可能会被截断并丢失高位字节 - 前 128 个 Unicode 码位是 ASCII 字符,UTF-16 将 U+0000 编码为 U+D7FF,在数字上等于码位。[1][2]

注意:UNICODE_STRING有一个 WCHAR* 缓冲区,ANSI_STRING一个 CHAR* 缓冲区,正如预期的那样。

[跳过 129-255 和区域设置/代码页]

超过 255 个字符会怎样?有一个RtlUnicodeToUTF8N函数,所以可以安全地假设它不会转换为UTF-8。

BMP 之外的代码点(代理对之类的)怎么样?

我看到一个函数,它执行类似于以下代码的操作:

char *pTarget = reinterpret_cast<char*>(char_str);
const WCHAR  *pSource = reinterpret_cast<const WCHAR*>(wchar_str);
for ( long i = 0; i < targetMaxSizeInBytes; i++ )
{
*pTarget = static_cast<char>(*pSource);
if (L'' == *pSource)
break;
pTarget++;
pSource++;
}

这会导致任何非 ASCII 字符出现问题,对吗?

更新:

从RbMm的回答中:

RtlUnicodeStringToAnsiString is shell over RtlUnicodeToMultiByteN routine

我得到了更多信息:

RtlUnicodeToMultiByteSize一样,RtlUnicodeToMultiByteN仅支持映射到系统启动时安装的当前系统 ANSI 代码页的预组合 Unicode 字符。

WideCharToMultiByte 有一个选项,如果在转换中使用了无法在指定代码页中表示的字符的默认字符,则会收到通知:

lpUsedDefaultChar [out, optional]

指向指示函数是否在转换中使用默认字符的标志的指针。如果源字符串中的一个或多个字符无法在指定的代码页中表示,则该标志设置为TRUE。否则,该标志将设置为FALSE。此参数可以设置为NULL。

但是,似乎RtlUnicodeToMultiByteN,因此RtlUnicodeStringToAnsiString根本不支持当前代码页之外的字符?

我尝试了一些字符,得到了看似随机的转换(见下文) - 更重要的是,我得到了STATUS_SUCCESS返回。

U+03A3 Σ -> 0n83 'S'
U+03A4 Τ -> 0n63 '?'
U+03A5 Υ -> 0n63 '?'
U+03A6 Φ -> 0n70 'F'

RtlUnicodeStringToAnsiString在例程RtlUnicodeToMultiByteN

RtlUnicodeToMultiByteN例程转换指定的Unicode 字符串转换为新字符串,使用当前系统ANSI 代码页 (ACP)。翻译后的字符串不一定来自 多字节字符集。

因此,此例程中的任何一个都具有与WideCharToMultiByte相同的转换CP_ACP

还存在下一个例程:

RtlUnicodeStringToOemString- 壳RtlUnicodeToOemN例行公事

RtlUnicodeToOemN例程将给定的 Unicode 字符串转换为 OEM 字符串,使用当前系统OEM 代码页

因此,此例程与WideCharToMultiByte具有相同的转换CP_OEMCP

对于UTF-8转换,存在RtlUnicodeToUTF8N(将 Unicode 字符串转换为 UTF-8 字符串)和RtlUTF8ToUnicodeN(将 UTF-8 字符串转换为 Unicode 字符串。

对于自定义代码页,可以使用未记录的 API

NTSYSAPI
NTSTATUS
NTAPI
RtlCustomCPToUnicodeN(
_In_ PCPTABLEINFO CustomCP,
_Out_writes_bytes_to_(MaxBytesInUnicodeString, *BytesInUnicodeString) PWCH UnicodeString,
_In_ ULONG MaxBytesInUnicodeString,
_Out_opt_ PULONG BytesInUnicodeString,
_In_reads_bytes_(BytesInCustomCPString) PCH CustomCPString,
_In_ ULONG BytesInCustomCPString
);

这里的关键点是初始化CPTABLEINFO,所以你可以使用任何USHORT代码页;这里

不确定这是否有帮助,但我之前使用过 WideCharToMultiByte 从 UTF-16 (wchar_t*) 和 UTF-8 (char*) 转换,将CP_UTF8作为代码页传递。

编辑:我刚刚记下了内核标签。我引用的函数处于用户模式(kernel32.dll),因此可能对内核模式代码没有用。:(