从std::regex中提取原始regex模式

extracting original regex pattern from std::regex

本文关键字:regex 原始 模式 提取 std      更新时间:2023-10-16

我有一个函数,它试图将给定的字符串与给定的正则表达式模式进行匹配。如果不匹配,它应该创建一个字符串来指示这种情况,并包括失败的正则表达式模式和字符串的内容。类似的东西:

bool validate_content(const std::string & str, const std::regex & pattern, std::vector<std::string> & errors)
{
    if ( false == std::regex_match(str, pattern) )
    {
        std::stringstream error_str;
        // error_str << "Pattern match failure: " << pattern << ", content: " << str;
        errors.push_back(error_str.str());
        return false;
    }
    return true;
}

然而,正如您所看到的,注释行提出了一个挑战:是否可以恢复regex对象的原始模式?

很明显,有一种变通方法,即提供原始模式字符串(而不是regex对象或在regex对象旁边),然后使用它。但是,我当然不需要在每次调用此函数时重新创建regex对象(每次调用函数时重新生成模式的成本很高),也不需要将regex模式与regex对象一起传递(很容易出现拼写错误和错误,除非我提供一个包装器来帮我这样做,这并不方便)。

我在Ubuntu 14.04上使用GCC 4.9.2。

boost::basic_regex对象有一个str()函数,该函数返回用于构造正则表达式的字符串的(副本)。(它们还提供了begin()end()接口,它们将迭代器返回到字符序列,以及用于内省捕获子表达式的机制。)

这些接口在最初的TR1 regex标准化提案中,但在2003年采用n1499:在basic_regex中简化接口后被删除,我引用了以下内容:

basic_regex不应保留其Initializer的副本

basic_regex模板有一个成员函数str,它返回一个字符串对象,该对象包含用于初始化basic_regex对象的文本……虽然查看初始化器字符串偶尔会很有用,但我们应该应用这样一条规则,即如果不使用它,就不必为此付费。就像fstream对象不附带打开时使用的文件名一样,basic_regex对象不应携带其初始值设定项文本。如果有人需要跟踪该文本,他们可以编写一个包含该文本和basic_regex对象的类。

根据标准N4431§28.8/2类模板basic_regx[re.regex](Emphasis mine):

basic_regex类型特殊化的对象负责转换charT对象的序列内部表示。没有指定此表示采用何种形式,也没有指定如何访问对正则表达式进行运算的算法[注意:实现通常会将一些函数模板声明为basic_regex的朋友,以实现这一点--结束注意]

因此,basic_regex对象不需要在内部保持原始字符序列。

因此,必须在创建regex时存储字符序列。例如:

struct RegexPattern {
  std::string pattern;
  std::regex  reg;
};
...
bool validate_content(const std::string & str, const RegexPattern & pattern, std::vector<std::string> & errors) {
    if(false == std::regex_match(str, pattern.reg)) {
        std::stringstream error_str;
        error_str << "Pattern match failure: " << pattern.pattern << ", content: " << str;
        errors.push_back(error_str.str());
        return false;
    }
    return true;
}

另一个由@Praetorian提出的更优雅的解决方案,但效率稍低(我还没有对这两个版本进行基准测试,因此我不确定)。将保留模式字符串并将其作为输入参数传递给函数validate_content,然后在内部创建regex对象,如下所示:

bool validate_content(const std::string & str, const string & pattern, std::vector<std::string> & errors) {
    std::regex reg(pattern);
    if(false == std::regex_match(str, reg)) {
        std::stringstream error_str;
        error_str << "Pattern match failure: " << pattern << ", content: " << str;
        errors.push_back(error_str.str());
        return false;
    }
    return true;
}