UNICODE_STRING使用 RtlUnicodeStringToAnsiString 进行ANSI_STRING转

UNICODE_STRING to ANSI_STRING conversion with RtlUnicodeStringToAnsiString

本文关键字：STRING ANSI 进行使用 UNICODE RtlUnicodeStringToAnsiString 更新时间：2023-10-16

RtlUnicodeStringToAnsiString的文档对其可能的故障相当模糊 - 模糊我的意思是它没有说任何关于它们的事情。

我不完全确定它如何/是否处理不同的编码，或者我的理解是否如此有缺陷以至于它甚至没有进入等式，但为了论证起见，让我们假设输入是 UTF-16。

如果所有字符都在 ASCII 范围内，那么没有问题，它们可能会被截断并丢失高位字节 - 前 128 个 Unicode 码位是 ASCII 字符，UTF-16 将 U+0000 编码为 U+D7FF，在数字上等于码位。[1][2]

注意：UNICODE_STRING有一个 WCHAR* 缓冲区，ANSI_STRING一个 CHAR* 缓冲区，正如预期的那样。

[跳过 129-255 和区域设置/代码页]

超过 255 个字符会怎样？有一个RtlUnicodeToUTF8N函数，所以可以安全地假设它不会转换为UTF-8。

BMP 之外的代码点(代理对之类的)怎么样？

我看到一个函数，它执行类似于以下代码的操作：

char *pTarget = reinterpret_cast<char*>(char_str);
const WCHAR  *pSource = reinterpret_cast<const WCHAR*>(wchar_str);
for ( long i = 0; i < targetMaxSizeInBytes; i++ )
{
*pTarget = static_cast<char>(*pSource);
if (L'' == *pSource)
break;
pTarget++;
pSource++;
}

这会导致任何非 ASCII 字符出现问题，对吗？

更新：

从RbMm的回答中：

RtlUnicodeStringToAnsiString is shell over RtlUnicodeToMultiByteN routine
。

我得到了更多信息：

与RtlUnicodeToMultiByteSize一样，RtlUnicodeToMultiByteN仅支持映射到系统启动时安装的当前系统 ANSI 代码页的预组合 Unicode 字符。

WideCharToMultiByte 有一个选项，如果在转换中使用了无法在指定代码页中表示的字符的默认字符，则会收到通知：

lpUsedDefaultChar [out， optional]
指向指示函数是否在转换中使用默认字符的标志的指针。如果源字符串中的一个或多个字符无法在指定的代码页中表示，则该标志设置为TRUE。否则，该标志将设置为FALSE。此参数可以设置为NULL。

但是，似乎RtlUnicodeToMultiByteN，因此RtlUnicodeStringToAnsiString根本不支持当前代码页之外的字符？

我尝试了一些字符，得到了看似随机的转换(见下文) - 更重要的是，我得到了STATUS_SUCCESS返回。

U+03A3 Σ -> 0n83 'S'
U+03A4 Τ -> 0n63 '?'
U+03A5 Υ -> 0n63 '?'
U+03A6 Φ -> 0n70 'F'

RtlUnicodeStringToAnsiString在例程RtlUnicodeToMultiByteN

RtlUnicodeToMultiByteN例程转换指定的Unicode 字符串转换为新字符串，使用当前系统ANSI 代码页 (ACP)。翻译后的字符串不一定来自多字节字符集。

因此，此例程中的任何一个都具有与WideCharToMultiByte相同的转换CP_ACP

还存在下一个例程：

RtlUnicodeStringToOemString- 壳RtlUnicodeToOemN例行公事

RtlUnicodeToOemN例程将给定的 Unicode 字符串转换为 OEM 字符串，使用当前系统OEM 代码页。

因此，此例程与WideCharToMultiByte具有相同的转换CP_OEMCP

对于UTF-8转换，存在RtlUnicodeToUTF8N(将 Unicode 字符串转换为 UTF-8 字符串)和RtlUTF8ToUnicodeN(将 UTF-8 字符串转换为 Unicode 字符串。

对于自定义代码页，可以使用未记录的 API

NTSYSAPI
NTSTATUS
NTAPI
RtlCustomCPToUnicodeN(
_In_ PCPTABLEINFO CustomCP,
_Out_writes_bytes_to_(MaxBytesInUnicodeString, *BytesInUnicodeString) PWCH UnicodeString,
_In_ ULONG MaxBytesInUnicodeString,
_Out_opt_ PULONG BytesInUnicodeString,
_In_reads_bytes_(BytesInCustomCPString) PCH CustomCPString,
_In_ ULONG BytesInCustomCPString
);

这里的关键点是初始化CPTABLEINFO，所以你可以使用任何USHORT代码页;这里

不确定这是否有帮助，但我之前使用过 WideCharToMultiByte 从 UTF-16 (wchar_t*) 和 UTF-8 (char*) 转换，将CP_UTF8作为代码页传递。

编辑：我刚刚记下了内核标签。我引用的函数处于用户模式(kernel32.dll)，因此可能对内核模式代码没有用。:(