文章/答案/技术大牛

发布

数据处理｜你不得不会的“正则表达式”

文章来源：企鹅号 - C语言与CPP编程

若要判断一个输入的QQ号是否有效，你会如何处呢？

首先你得分析一下其对应规则，依次列出：

长度大于5，小于等于11；

首位不能为0；

是否为纯数字？

规则既列，接着就该尝试实现了，那么用什么来表示字符串呢？在C++中，最容易想到的就是string了，其中提供了许多成员函数可以处理字符串，所以有了如下实现：

虽然写出来了，但是有没有感到异常繁琐？这还仅仅是一个对应规则较少的处理，便如此麻烦，若是要检测IP地址、身份证号，或是解析一段HTML数据，或是其它更复杂的字串，那岂非更令人叫苦不迭？

当然，也有许多扩展库对字符串处理提供了方便，其中比较好用的是boost中的string_algo库（已于C++17纳入了标准库，并改名为string_view），但本篇主要说C++11的regex库，其对复杂数据的处理能力非常强，比如可以用它来检测QQ号：

是不是超级方便呢？那么接下来便来看看如何使用「正则表达式」。

正则程序库（regex）

「正则表达式」就是一套表示规则的式子，专门用来处理各种复杂的操作。

std::regex是C++用来表示「正则表达式」（regular expression）的库，于C++11加入，它是class std::basic_regex针对char类型的一个特化，还有一个针对wchar_t类型的特化为std::wregex。

正则文法（regex syntaxes）

std::regex默认使用是ECMAScript文法，这种文法比较好用，且威力强大，常用符号的意义如下：

上面列出的这些都是非常常用的符号，靠这些便足以解决绝大多数问题了。

匹配（Match）

字符串处理常用的一个操作是「匹配」，即字符串和规则恰好对应，而用于匹配的函数为std::regex_match()，它是个函数模板，我们直接来看例子：

这个小例子使用regex_match()来匹配xml格式（或是html格式）的字符串，匹配成功则会返回true，意思非常简单，若是不懂其中意思，可参照前面的文法部分。

对于语句中出现\\，是因为\需要转义，C++11以后支持原生字符，所以也可以这样使用：

但C++03之前并不支持，所以使用时要需要留意。

若是想得到匹配的结果，可以使用regex_match()的另一个重载形式：

输出结果为：

cmatch是class template std::match_result针对C字符的一个特化版本，若是string，便得用针对string的特化版本smatch。同时还支持其相应的宽字符版本wcmatch和wsmatch。

在regex_match()的第二个参数传入match_result便可获取匹配的结果，在例子中便将结果储存到了cmatch中，而cmatch又提供了许多函数可以对这些结果进行操作，大多方法都和string的方法类似，所以使用起来比较容易。

m[0]保存着匹配结果的所有字符，若想在匹配结果中保存有子串，则得在「正则表达式」中用()标出子串，所以这里多加了几个括号：

这样这些子串就会依次保存在m[0]的后面，即可通过m[1],m[2],…依次访问到各个子串。

搜索（Search）

「搜索」与「匹配」非常相像，其对应的函数为std::regex_search，也是个函数模板，用法和regex_match一样，不同之处在于「搜索」只要字符串中有目标出现就会返回，而非完全「匹配」。

还是以例子来看：

输出为：

这儿若换成regex_match匹配就会失败，因为regex_match是完全匹配的，而此处字符串前后却多加了几个字符。

对于「搜索」，在匹配结果中可以分别通过prefix和suffix来获取前缀和后缀，前缀即是匹配内容前面的内容，后缀则是匹配内容后面的内容。

那么若有多组符合条件的内容又如何得到其全部信息呢？这里依旧通过一个小例子来看：

输出结果为：

此处使用了regex_search函数的另一个重载形式（regex_match函数亦有同样的重载形式），实际上所有的子串对象都是从std::pair派生的，其first（即此处的prefix）即为第一个字符的位置，second（即此处的suffix）则为最末字符的下一个位置。

一组查找完成后，便可从suffix处接着查找，这样就能获取到所有符合内容的信息了。

分词（Tokenize）

还有一种操作叫做「切割」，例如有一组数据保存着许多邮箱账号，并以逗号分隔，那就可以指定以逗号为分割符来切割这些内容，从而得到每个账号。

而在C++的正则中，把这种操作称为Tokenize，用模板类regex_token_iterator提供分词迭代器，依旧通过例子来看：

这样，就能通过逗号分割得到所有的邮箱：

sregex_token_iterator是针对string类型的特化，需要注意的是最后一个参数，这个参数可以指定一系列整数值，用来表示你感兴趣的内容，此处的-1表示对于匹配的正则表达式之前的子序列感兴趣；而若指定0，则表示对于匹配的正则表达式感兴趣，这里就会得到“,"；还可对正则表达式进行分组，之后便能输入任意数字对应指定的分组，大家可以动手试试。

替换（Replace）

最后一种操作称为「替换」，即将正则表达式内容替换为指定内容，regex库用模板函数std::regex_replace提供「替换」操作。

现在，给定一个数据为"he…ll..o, worl..d!"，思考一下，如何去掉其中误敲的“.”？

有思路了吗？来看看正则的解法：

我们还可以使用分组功能：

当使用分组功能后，可以通过$N来得到分组内容，这个功能挺有用的。

实例（Examples）

1. 验证邮箱

这个需求在注册登录时常有用到，用于检测用户输入的合法性。

若是对匹配精确度要求不高，那么可以这么写：

这里使用了另外一种遍历正则查找的方法，这种方法使用regex iterator来迭代，效率要比使用match高。这里的正则是一个弱匹配，但对于一般用户的输入来说没有什么问题，关键是简单，输出为：

输出为：

2. 匹配IP

有这样一串IP地址，192.68.1.254 102.49.23.013 10.10.10.10 2.2.2.2 8.109.90.30，

要求：取出其中的IP地址，并按地址段顺序输出IP地址。

有点晚了，便不详细解释了，这里直接给出答案，可供大家参考：

输出结果为：

THE END

发表于: 2020-12-212020-12-21 08:00:13
原文链接：https://kuaibao.qq.com/s/20201221A01N2R00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

数据处理｜你不得不会的“正则表达式”

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐