扩展'isalnum'以识别 UTF-8 变音符号
Extending 'isalnum' to recognize UTF-8 umlaut
我编写了一个扩展isalnum
的函数来识别UTF-8编码的变音符
有没有更优雅的方法来解决这个问题?
代码如下:
bool isalnumlaut(const char character) {
int cr = (int) (unsigned char) character;
if (isalnum(character)
|| cr == 195 // UTF-8
|| cr == 132 // Ä
|| cr == 164 // ä
|| cr == 150 // Ö
|| cr == 182 // ö
|| cr == 156 // Ü
|| cr == 188 // ü
|| cr == 159 // ß
) {
return true;
} else {
return false;
}
}
编辑:我现在测试了我的解决方案几次,它似乎为我的目的做了工作。有强烈的反对意见吗?
你的代码没有做到你所声称的。
Ä
的utf-8表示为两个字节- 0xC3,0x84
。值大于0x7F
的单个字节在utf-8中是没有意义的。
一般性建议:
-
Unicode较大。考虑使用已经处理过您所看到的问题的库,例如ICU。
-
函数在单个代码单元或代码点上操作通常没有意义。让函数在代码点范围或单个字形上操作更有意义(参见此处查看这些术语的定义)。
-
对于像通用字符集这样大的字符集,您的字母数字概念可能未被充分指定;是否要将西里尔字母中的字符视为字母数字?Unicode对字母顺序的概念可能与你的不一致——特别是如果你没有考虑过的话。
我不是100%确定,但<locale>
中的c++ std::isalnum
几乎肯定可以识别特定于区域设置的附加字符:http://www.cplusplus.com/reference/std/locale/isalnum/
使用您定义的接口是不可能的,因为UTF-8是一个多字节编码;单个字符需要多个char
to表示它。(我有代码来确定UTF-8是否是一个是库中指定字符集的成员,但是字符由一对迭代器指定,而不是单个char
)
相关文章:
- 在C++中,将大的无符号浮点数四舍五入为整数的最佳方法是什么
- 有符号的int和int-有没有一种方法可以在C++中区分它们
- 将无符号char*转换为std::istream*C++
- 如何在C++中将一个无符号的 int 转换为两个无符号的短裤?
- vscode g++链路故障:体系结构x86_64的未定义符号
- 从矢量<无符号字符>转换为字符* 包括垃圾数据
- 如何理解将半精度指针转换为无符号长指针和相关的内存对齐
- Visual studio代码重构似乎不起作用(例如,重命名符号-f2)
- 使用gcc从静态链接的文件中查找可选符号
- C++中无符号字符溢出
- 使用无符号字符数组有效存储内存
- C++:Application.cpp中抛出了未解析的外部符号(解决方案在问题的末尾,供未来的读者参考)
- VC++本机单元测试,找不到调试符号
- 为什么我必须在C++中添加一个赋值符号来声明一个数组
- 检查TCHAR数组输入是否为带符号整数C++
- 用符号版本替换对函数的所有调用
- 未解析的外部符号_MsiLocateComponentW@12.
- 如何打印boost多精度128位无符号整数
- C++模板函数,用于比较任何无符号整数和有符号整数
- 在 Mac 上使用 CMAKE 将 FFTW 和 FFTWPP 链接到项目中时未定义的符号