检查UTF8是否无效
Check for invalid UTF8
我正在从UTF8格式转换为十六进制的实际值。但是,我需要捕获一些无效的字节序列。有没有一种快速的方法来检查一个字符是否不属于C++中的UTF8?
遵循Unicode标准第3章中的表格。(我使用了Unicode 5.1.0版本的章节(第103页(;它在Unicode 6.0.0版本的p94上是表3-7,在Unicode 6.3版本的p95上是,在Unicode 8.0.0版本的p125上是。(
字节0xC0、0xC1和0xF5..0xFF不能以有效的UTF-8出现。记录有效序列;所有其他都无效。
表3-7。格式良好的UTF-8字节序列
Code Points First Byte Second Byte Third Byte Fourth Byte
U+0000..U+007F 00..7F
U+0080..U+07FF C2..DF 80..BF
U+0800..U+0FFF E0 A0..BF 80..BF
U+1000..U+CFFF E1..EC 80..BF 80..BF
U+D000..U+D7FF ED 80..9F 80..BF
U+E000..U+FFFF EE..EF 80..BF 80..BF
U+10000..U+3FFFF F0 90..BF 80..BF 80..BF
U+40000..U+FFFFF F1..F3 80..BF 80..BF 80..BF
U+100000..U+10FFFF F4 80..8F 80..BF 80..BF
注意,对于第一字节的某些值范围,不规则性在第二字节中。第三个和第四个字节在需要时是一致的。请注意,并不是在被识别为有效的范围内的每个代码点都已分配(有些代码点明确为"非字符"(,因此还需要更多的验证。
代码点U+D800.U+DBFF用于UTF-16高替代物,而U+DC00.U+DFFF用于UTF-16低替代物;这些值不能以有效的UTF-8格式出现(您可以直接以UTF-8格式对BMP(基本多语言平面(之外的值进行编码(,这就是为什么该范围被标记为无效的原因。
其他排除的范围(初始字节C0或C1,或初始字节E0后跟80.9F,或初始比特F0后跟80.8F(是非最小编码。例如,C0 80将编码U+0000,但这是由00编码的,UTF-8定义了非最小编码C0 80无效。最大Unicode码位为U+10FFFF;从F4 90开始向上的UTF-8编码会生成超出范围的值。
答案已经很好了,我只是为了好玩而加入另一个观点。
UTF-8使用Prosser和Thompson的通用方案对单字节序列中的大数字进行编码。这个方案实际上可以表示2^36个值,但对于Unicode,我们只需要2^21。以下是它的工作原理。让N是您想要编码的数字(例如,Unicode编码点(:
- 如果N<128,只有一个字节CCD_ 1。最高的位是零
- 否则,为几个字节。第一个字节以序列中字节数的1开头,后跟0,然后是数据位;连续的字节以CCD_ 2开始,后面跟着六个数据位。示例:
- 3字节序列:
1110xxxx 10xxxxxx 10xxxxxx
- 5字节序列:
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
- 7字节序列:
11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
k-字节序列适合5k+1位(当k>1时(,因此您可以确定给定N需要多少字节。对于解码,读取一个字节;如果它的最高位为零,则按原样存储它的值,否则使用第一个字节来计算序列中有多少字节并处理所有这些字节。
对于今天的Unicode,我们最多只需要k=4个字节。
public static bool IsValidUtf8(byte[] bytes, int length)
{
// https://en.wikipedia.org/wiki/UTF-8#Codepage_layout
// http://www.w3.org/International/questions/qa-forms-utf-8
// https://social.msdn.microsoft.com/Forums/vstudio/en-US/df18cca9-5e54-410e-a5c5-74efc7b52e29
// http://gallery.technet.microsoft.com/scriptcenter/ConvertTo-String-d79aed45
Encoding enc = Encoding.GetEncoding("iso-8859-1");
string binaryText = enc.GetString(bytes, 0, length);
Regex rx = new Regex(@"A(
[x09x0Ax0Dx20-x7E] # ASCII
| [xC2-xDF][x80-xBF] # non-overlong 2-byte
| xE0[xA0-xBF][x80-xBF] # excluding overlongs
| [xE1-xECxEExEF][x80-xBF]{2} # straight 3-byte
| xED[x80-x9F][x80-xBF] # excluding surrogates
| xF0[x90-xBF][x80-xBF]{2} # planes 1-3
| [xF1-xF3][x80-xBF]{3} # planes 4-15
| xF4[x80-x8F][x80-xBF]{2} # plane 16
)*z", RegexOptions.IgnorePatternWhitespace | RegexOptions.Singleline);
return rx.IsMatch(binaryText);
}
注意:
为了能够将正则表达式与二进制数据(字节(相匹配,首先使用"Unicode"将二进制数据转换为Unicode字符串(所有.net字符串都是Unicode(iso-8859-1";编码。它是唯一一个与前256个Unicode代码点有一对一映射的单字节编码。其他编码在转换为文本后不会保留所有二进制字节。
static void Main(string[] args)
{
string filename = "myfile.txt";
byte[] bytes = File.ReadAllBytes(filename);
if (IsValidUtf8(bytes, bytes.Length))
{
Console.WriteLine("encoding: utf-8");
}
else
{
Console.WriteLine("unknown encoding.");
}
}
- 在擦除或修改作为不同索引键的值时,boost::multi_index 迭代器是否无效?
- 当向量增长时,指向向量元素的C++指针是否无效
- C ++回测问题:如何检查构造函数在假定失败时是否失败(给定输入的无效参数)
- 在线C++标准草案的更新是否会使指向它的链接无效?
- 使用无效指针初始化指针声明符的行为是否未定义?
- 将前向声明的类型转换为无效是否合法?
- 移动构造函数是否使shared_from_this无效
- CIN是否将输入流中的无效字符取用
- 声明是否无效()合法,它实际上是什么?
- 当使用无效表达式时,概念是否应该无法编译?
- 常量 & 指非易失性变量。变量将更改。更改是否使常量 & 无效?
- std::find是否隐式修复无效参数
- 验证用户输入是否有效 [从 'char' 到 'char*' 的转换无效]
- 在无效函数中使用退出来纠正错误是否是一种好的做法
- 只要我不使用它,我是否可以安全地创建对可能无效内存的引用?
- 提示再次运行程序:修复他们是否输入了无效语句
- 验证字符串中是否存在无效字符
- 如何判断我的结构tm是否处于无效状态
- 取消引用无效指针但不使用结果是否是C++中的未定义行为
- 在 && 语句的后半部分进行无效操作是否安全?