将Perl正则表达式转换为等效的ECMAScript正则表达式
Convert Perl regular expression to equivalent ECMAScript regular expression
现在我使用的是VC++2010,但VC++2010的syntax_option_type
只包含以下选项:
static const flag_type icase = regex_constants::icase;
static const flag_type nosubs = regex_constants::nosubs;
static const flag_type optimize = regex_constants::optimize;
static const flag_type collate = regex_constants::collate;
static const flag_type ECMAScript = regex_constants::ECMAScript;
static const flag_type basic = regex_constants::basic;
static const flag_type extended = regex_constants::extended;
static const flag_type awk = regex_constants::awk;
static const flag_type grep = regex_constants::grep;
static const flag_type egrep = regex_constants::egrep;
它不包含perl_syntax_group(Boost Library有此选项)但是,我不想使用Boost库
有很多正则表达式是用Perl编写的,所以我想将现有的Perl正则表达式转换为ECMAScript
(或VC++2010支持的任何一个)。转换后,我可以直接在VC++2010中使用等效的正则表达式,而无需使用第三方库。
一个例子:
const boost::tregex e(__T("\A(\d{3,4})[- ]?(\d{4})[- ]?(\d{4})[- ]?(\d{4})\z"));
const CString human_format = __T("$1-$2-$3-$4");
CString human_readable_card_number(const CString& s)
{
return boost::regex_replace(s, e, human_format);
}
CString credit_card_number = "1234567887654321";
credit_card_number = human_readable_card_number(credit_card_number);
assert(credit_card_number == "1234-5678-8765-4321");
在上面的示例中,我想做的是将e
和format
转换为ECMAScript
样式的表达式。
是否可以找到一种通用方法将所有Perl正则表达式转换为ECMAScript
样式?有什么工具可以做到这一点吗
任何帮助都将不胜感激!
对于要转换的特定正则表达式,ECMA正则表达式中的等效项为:
/^(d{3,4})[- ]?(d{4})[- ]?(d{4})[- ]?(d{4})$/
在这种情况下,A
(在Perl正则表达式中)与^
(在ECMA正则表达式中,)(匹配字符串的开头)具有相同的含义,而Z
(在Perl regex中)与$
(在ECMA-regex中,)具有相同含义(匹配字符串结尾)。请注意,如果启用多行模式,ECMA regex中^
和$
的含义将更改为匹配行的开头和结尾。
ECMA正则表达式是Perl正则表达式的一个子集,因此,如果正则表达式在Perl正则表达式中使用独占功能,则很可能无法转换为ECMA正则函数。即使对于相同的语法,regex的两种方言之间的语法含义也可能略有不同,因此查看文档并比较用法总是明智的。
我只想说明ECMA正则表达式和Perl正则表达式之间的相似之处。什么是不相似的,但可转换的,我会尽我所能提到它。
ECMA-regex缺少与Unicode配合使用的功能,这迫使您查找代码点并将其指定为字符类。
根据Perl正则表达式的文档:
- 修改器:
- ECMA标准中只有
i
、g
和m
,它们的行为与Perl中的相同 s
点全修饰语可以在ECMA正则表达式中使用两个互补字符类来模拟,例如[Ss]
、[Dd]
- 无论如何都不支持
x
和p
标志 - 我不知道是否有任何方法可以模拟其余部分(前缀和后缀修饰符)
- ECMA标准中只有
- 元字符:
- 我对将
与非元字符一起使用有点怀疑,该字符不会解析为任何特殊含义,但如果你不在不需要的地方转义,那应该没问题。ECMA中的
.
排除了更多的字符。其余部分在ECMA正则表达式中表现相同(m
标志对^
和$
的影响相同)
- 我对将
- 定量器:贪婪和懒惰的行为应该是一样的。ECMA正则表达式中没有所有格行为
- ECMA正则表达式中没有
a
和e
。t
、n
、r
、f
相同 - 如果正则表达式具有
cX
,请查看文档-存在差异 xhh
在ECMA正则表达式和Perl正则表达式中很常见(指定2个十六进制数字是最安全的,否则,您必须查阅文档,了解该语言将如何处理少于2个十六进位数字的情况)uhhhh
是ECMA正则表达式的专用功能,用于指定Unicode字符。Perl还有其他专用方式来指定字符,如x{}
、N{}
、o{}
、