如何仅获取给定捕获的组<regex>c ++

How to get only given captured group <regex> c++

本文关键字:regex lt gt 获取 何仅      更新时间:2023-10-16

我想提取标签的内部内容。从以下字符串:

<tag1 val=123>Hello</tag1>

我只想得到

Hello

我做什么:

string s = "<tag1 val=123>Hello</tag1>";
regex re("<tag1.*>(.*)</tag1>");
smatch matches;
bool b = regex_match(s, matches, re);

但它返回两个匹配项:

<tag1 val=123>Hello</tag1>
Hello

当我尝试像这样只获得第一个捕获的组时:

"<tag1.*>(.*)</tag1>1"

我得到零匹配。

请指教。

regex_match仅返回一个匹配项,其中包含所有捕获组子匹配项(其数量取决于模式中有多少组(。

在这里,您只能获得包含两个子匹配项的 1 个匹配项:1( 整个匹配项,2( 捕获组 1 值。

若要获取捕获组的内容,需要访问smatches对象第二个元素,matches[1].str()matches.str(1)

请注意,当您编写 "<tag1.*>(.*)</tag1>1" 时,1不会解析为反向引用,而是解析为八进制代码为 1 的字符。即使您定义了反向引用(如"<tag1.*>(.*)</tag1>\1"(,您也需要在</tag1>后重复使用捕获组 1 捕获的整个文本 - 这绝对不是您想要的。实际上,我怀疑这个正则表达式有什么好处,至少,你需要用"[\s\S]*?"替换".*",但它仍然是一种用正则表达式解析 HTML 的脆弱方法。