如何在cpp中为所有语言的全词匹配构建正则表达式

How to build a regex for a whole word match for all languages in cpp?

本文关键字:正则表达式 构建 语言 cpp      更新时间:2023-10-16

用于单词边界的b正则表达式是否适用于所有语言的cpp?还是只是拉丁字母?

如果不是-如何匹配一个完整的单词,如"?

具体来说,我想到了类似于[^s]תפוח[$s]的东西,但不确定^是否被插入为否定或字符串的开头。。。

我正在使用PCRE库。

您没有说明您使用的正则表达式引擎。但无论如何,您可能会考虑使用boost regex,因为它有一个包装器,可以与ICU库一起使用来处理unicode。

文件显示您可以:

创建支持各种Unicode数据的正则表达式属性,包括字符分类。

这意味着/b和/b应该使用ICU支持的任何编码。

在Unicode合规性的"标准"部分,它说:

1.4简单的单词边界:一致:单词字符集中包含无间距标记。