用于分析数据的正则表达式
Regular Expression For Parsing Data
我正在编写一个从简单文本文件中读取一些数据的应用程序。数据文件,我感兴趣的,有以下形式的行:
Mem(100) = 120
Mem(200) = 231
Mem(43) = 12
...
Mem(1293) = 12.54
所以,正如你所理解的,每条线的模式是这样的
(s)*(t)*Mem([0-9]*) (s,t)*= (s,t)*[0-9]*(.)*[0-9]*
就像我在字符序列"Mem"之前有任意数量的空格,然后是左括号。然后,有一个数字和一个右括号。之后,会有任意数量的空格,直到遇到"="(等于)字符。然后,任意数量的空格,直到我遇到(可能)浮点数。
如何在C++正则表达式模式中表达这一点?我对C++中的正则表达式概念非常陌生,所以我需要一些帮助。
谢谢
首先,记得#include <regex>
.
C++ std::regex_match
的工作方式与其他语言中的正则表达式类似。
让我们从一个简单的例子开始:
std::string str = "Mem(100)=120";
std::regex regex("^Mem\([0-9]+\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;
在这种情况下,我们的正则表达式是 ^Mem([0-9]+)=[0-9]+$
.让我们来看看它的作用:
- 开头的
^
告诉C++这是行的起点,因此AMem(1)=2
不应匹配。 - 末尾的
$
告诉C++这是行的终点,因此Mem(1)=2x
不应匹配。 -
\(
是一个字面上的(
字符。(
在正则表达式中具有非常特殊的含义,因此我们将其转义(
.但是,字符在C++字符串中具有特殊含义,因此我们使用
\(
来告诉C++将(
传递给正则表达式引擎。 -
[0-9]
匹配数字。\d
也应该有效,但话又说回来,也许不是。 -
[0-9]+
表示至少一位数字。如果Mem()
可以接受,则改用[0-9]*
。
如您所见,这就像您在其他语言(例如 Java 或 C#)中找到的正则表达式一样。
现在,要考虑空格,请使用std::regex regex("^\s*Mem\([0-9]+\)\s*=\s*[0-9]+\s*$");
请注意,s
包括t
,因此无需同时指定两者。如果没有,您将使用 (s|t)
或 [st]
,而不是(s,t)
。
最后,要包含浮点数,我们首先需要考虑Mem(1) = 1.
(即后面没有数字的点)是否可以接受。
如果不是,则1.23
中的.23
是可选的。在正则表达式中,我们使用?
来表示这一点。
std::regex regex("^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$");
请注意,我们使用.
而不仅仅是 .
. .
在正则表达式中具有特殊含义 - 它匹配任何字符 - 因此我们需要对其进行转义。
如果你有一个支持原始字符串的编译器(例如Visual Studio 2013,GCC 4.5,Clang 3.0),你可以简化正则表达式字符串:
std::regex regex(R"(^[s]*Mem([0-9]+)s*=s*[0-9]+(.[0-9]+)?s*$)")
若要提取有关匹配字符串的信息,可以使用std::smatch
和组。
让我们从一个小的改变开始:
std::string str = " Mem(100)=120";
std::regex regex("^[\s]*Mem\(([0-9]+)\)\s*=\s*([0-9]+(\.[0-9]+)?)\s*$");
std::smatch m;
std::cout << std::regex_match(str, m, regex) << std::endl;
请注意三件事:
- 我们添加了
smatch
.此类存储有关比赛的额外结果信息。 - 我们在
[0-9]*
周围添加了额外的括号。这将定义一个组。组告诉正则表达式引擎跟踪其中的任何内容。 - 浮点数周围还有更多括号。这将定义第二个组。
非常重要的是,定义组的括号不会被转义,因为我们不希望它们与实际的括号字符匹配。我们实际上想要特殊的正则表达式含义。
现在我们有了组,我们可以使用它们:
for (auto result : m) {
std::cout << result << std::endl;
}
这将首先打印整个字符串,然后打印Mem()
中的数字,然后打印最终数字。
换句话说,m[0]
给了我们整场比赛,m[1]
给了我们第一组,m[2]
给了我们第二组,如果我们有第三组,m[3]
会给我们第三组。
- 使用正则表达式regex_search在字符串中查找字符串
- 在 C++ 中使用正则表达式错误时出现问题 括号表达式中的范围无效
- C++正则表达式无限循环
- FindPackageHandleStandardArgs.cmake:137 的 CMake 错误(消息):找不到 Boost (缺少:正则表达式)(找到合适的版本"1.72.0",
- 定义有趣的宏和正则表达式在Z3 C++绑定
- 带有多个字符分隔符的正则表达式
- C++ 使用增强正则表达式库时断言崩溃
- 有人可以帮助我处理正则表达式吗?
- 使用正则表达式获取大括号块的列表
- 正则表达式以匹配数字的重复模式,后跟任何类型的分隔符?
- 组合正则表达式部分使用 | 不起作用的 C++
- 为什么C++正则表达式这么慢?
- 如何使HTML5电子邮件验证正则表达式在C++中工作?
- 在C++中实现正则表达式
- C++正则表达式替换整个单词
- 用C++编写正则表达式的正确方法是什么?
- 如何从Stroustrup的C++书中解释这个正则表达式?
- 使用正则表达式从文件中读取数据信息
- 用于分析数据的正则表达式
- 使用正则表达式从C++中的一行文本中提取数据