常用符号'pS'不是'匹配'使用std::wregex

Common symbols 'pS' not been 'matched' using std::wregex

本文关键字:std wregex 使用 pS 符号 常用 不是 匹配      更新时间:2023-10-16

我正在使用下面的代码尝试使用regex来匹配符号(例如,我正在尝试匹配圆星符号,http://graphemica.com/%E2%9C%AA)

#include <regex>
#include <iostream>
int main() {
  std::wsmatch matches;
  std::wstring x = L"✪";
  //  std::wregex e(L"(\pS)+");
  std::wregex e(L"([[:S:]]+)");
  if (std::regex_match(x, matches, e))
  {
    // never reached
    std::cout << "Never reached";
  } 
  std::cout << "Bye.";
  return 0;
}

符号✪(0x272A)不匹配,我也尝试过使用其他符号,但都不起作用,(例如©)。

我尝试了[:S:]pSp{S},它们都不起作用,(最后一个抛出异常)

这是一个类似的,(但不是同一个命名空间),与boost库的问题一样,(使用boost wregex的公共符号';\p{S}';未匹配';)

ECMAScript第三版和POSIX正则表达式语法都不支持Unicode类别字符类。您可以使用基于uU的字符范围自己形成它们,但在当前的规范中,希望使用p{So}之类的字符是徒劳的。

正如我在回答你的另一个问题时所说,如果你真的想使用它们,Boost.Regex通过启用ICU支持的boost::u32regex支持它们。(PCRE/PCRE2也支持它们,但与大多数C库一样,我不太愿意将它们推荐给新的C++代码。)