什么正则表达式只能在C++源文件中查找字符串

What regular expression to find strings only in C++ source files

本文关键字:源文件 查找 字符串 C++ 正则表达式 什么      更新时间:2023-10-16

我有一个C++应用程序,我正在转换每个字符串文字和方法,以使用泛型类型来启用unicode。换句话说,以下转换正在完成

const char* str = "this is "simple string""; //=> const TCHAR* str = _T("this is "simple string"");
MessageBoxA(NULL, "message", "title", MB_OK);//=>MessageBox(NULL, _T("message"), _T("title"), MB_OK);    
size_t len = strlen(str);//=>size_t len = _tcslen(str);

最大的问题是,该应用程序包含大量文本字符串,我需要一个正则表达式模式来只查找文本字符串,并将其替换为_T(previous_str(,我从web和stackoverflow中找到了许多表达式,但它们也匹配,头部包括

#include "stdafx.h" // => #include _T("stdafx.h")

我还需要避免以_T开头(以([之前已经转换过]的字符串。

Ahmed这是一个有趣的问题。让我们讨论一下如何使用regex来实现这一点。有很多选择,这是我会做的。

A。我会在VisualStudio之外处理这些文件,这样您就可以使用regex的全部功能。您可以使用C++、C#或PHP或python等脚本语言,并为其提供一组要处理的文件或文件夹。

B。下面是一个正则表达式,它将捕获您想要进入第1组的字符串:

(?s)_T([^)]*)|#include[^n]*|"((?:[^"]|(?<=\)")+)(?<!\)"

使用此regex,我们希望完全忽略返回的整体匹配,而只关注Group 1捕获(如果有的话(。

在测试文本中,捕获是this is "simple string"以及右侧的messagetitle

这捕获了字符串的内部,但我们可能需要它们来替换,所以要包含双引号,只需将它们移动到第1组:中即可

(?s)_T([^)]*)|#include[^n]*|("(?:[^"]|(?<=\)")+(?<!\)")

C。当调用语言的regex-Replace函数时,不是直接传递替换,而是传递回调函数。该函数将自动访问组1的匹配(这就是替换回调的工作方式(,您可以随心所欲地操作替换:例如,如果组1为空,则不要替换(这意味着我们匹配了您想要避免的字符串(。如果你有一个组1,做你的串联魔术。

很难更具体,但这是我使用regex时遵循的一般配方。