检查UTF8是否无效

Check for invalid UTF8

本文关键字:无效 是否 UTF8 检查      更新时间:2023-10-16

我正在从UTF8格式转换为十六进制的实际值。但是,我需要捕获一些无效的字节序列。有没有一种快速的方法来检查一个字符是否不属于C++中的UTF8?

遵循Unicode标准第3章中的表格。(我使用了Unicode 5.1.0版本的章节(第103页(;它在Unicode 6.0.0版本的p94上是表3-7,在Unicode 6.3版本的p95上是,在Unicode 8.0.0版本的p125上是。(

字节0xC0、0xC1和0xF5..0xFF不能以有效的UTF-8出现。记录有效序列;所有其他都无效。

表3-7。格式良好的UTF-8字节序列

Code Points        First Byte Second Byte Third Byte Fourth Byte
U+0000..U+007F     00..7F
U+0080..U+07FF     C2..DF     80..BF
U+0800..U+0FFF     E0         A0..BF      80..BF
U+1000..U+CFFF     E1..EC     80..BF      80..BF
U+D000..U+D7FF     ED         80..9F      80..BF
U+E000..U+FFFF     EE..EF     80..BF      80..BF
U+10000..U+3FFFF   F0         90..BF      80..BF     80..BF
U+40000..U+FFFFF   F1..F3     80..BF      80..BF     80..BF
U+100000..U+10FFFF F4         80..8F      80..BF     80..BF

注意,对于第一字节的某些值范围,不规则性在第二字节中。第三个和第四个字节在需要时是一致的。请注意,并不是在被识别为有效的范围内的每个代码点都已分配(有些代码点明确为"非字符"(,因此还需要更多的验证。

代码点U+D800.U+DBFF用于UTF-16高替代物,而U+DC00.U+DFFF用于UTF-16低替代物;这些值不能以有效的UTF-8格式出现(您可以直接以UTF-8格式对BMP(基本多语言平面(之外的值进行编码(,这就是为什么该范围被标记为无效的原因。

其他排除的范围(初始字节C0或C1,或初始字节E0后跟80.9F,或初始比特F0后跟80.8F(是非最小编码。例如,C0 80将编码U+0000,但这是由00编码的,UTF-8定义了非最小编码C0 80无效。最大Unicode码位为U+10FFFF;从F4 90开始向上的UTF-8编码会生成超出范围的值。

答案已经很好了,我只是为了好玩而加入另一个观点。

UTF-8使用Prosser和Thompson的通用方案对单字节序列中的大数字进行编码。这个方案实际上可以表示2^36个值,但对于Unicode,我们只需要2^21。以下是它的工作原理。让N是您想要编码的数字(例如,Unicode编码点(:

  • 如果N<128,只有一个字节CCD_ 1。最高的位是零
  • 否则,为几个字节。第一个字节以序列中字节数的1开头,后跟0,然后是数据位;连续的字节以CCD_ 2开始,后面跟着六个数据位。示例:
  • 3字节序列:1110xxxx 10xxxxxx 10xxxxxx
  • 5字节序列:111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
  • 7字节序列:11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

k-字节序列适合5k+1位(当k>1时(,因此您可以确定给定N需要多少字节。对于解码,读取一个字节;如果它的最高位为零,则按原样存储它的值,否则使用第一个字节来计算序列中有多少字节并处理所有这些字节。

对于今天的Unicode,我们最多只需要k=4个字节。

public static bool IsValidUtf8(byte[] bytes, int length)
{
    // https://en.wikipedia.org/wiki/UTF-8#Codepage_layout
    // http://www.w3.org/International/questions/qa-forms-utf-8
    // https://social.msdn.microsoft.com/Forums/vstudio/en-US/df18cca9-5e54-410e-a5c5-74efc7b52e29
    // http://gallery.technet.microsoft.com/scriptcenter/ConvertTo-String-d79aed45
    Encoding enc = Encoding.GetEncoding("iso-8859-1");
    string binaryText = enc.GetString(bytes, 0, length);
    Regex rx = new Regex(@"A(
          [x09x0Ax0Dx20-x7E]            # ASCII
        | [xC2-xDF][x80-xBF]             # non-overlong 2-byte
        |  xE0[xA0-xBF][x80-xBF]        # excluding overlongs
        | [xE1-xECxEExEF][x80-xBF]{2}  # straight 3-byte
        |  xED[x80-x9F][x80-xBF]        # excluding surrogates
        |  xF0[x90-xBF][x80-xBF]{2}     # planes 1-3
        | [xF1-xF3][x80-xBF]{3}          # planes 4-15
        |  xF4[x80-x8F][x80-xBF]{2}     # plane 16
        )*z", RegexOptions.IgnorePatternWhitespace | RegexOptions.Singleline);
    return rx.IsMatch(binaryText);
}

注意

为了能够将正则表达式与二进制数据(字节(相匹配,首先使用"Unicode"将二进制数据转换为Unicode字符串(所有.net字符串都是Unicode(iso-8859-1";编码。它是唯一一个与前256个Unicode代码点有一对一映射的单字节编码。其他编码在转换为文本后不会保留所有二进制字节。

static void Main(string[] args)
{
    string filename = "myfile.txt";
    byte[] bytes = File.ReadAllBytes(filename);
    if (IsValidUtf8(bytes, bytes.Length))
    {
        Console.WriteLine("encoding: utf-8");
    }        
    else
    {
        Console.WriteLine("unknown encoding.");
    }
}