前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >正则表达式速查

正则表达式速查

作者头像
曲奇
发布2021-12-14 19:00:36
4350
发布2021-12-14 19:00:36
举报
文章被收录于专栏:曲奇的博客曲奇的博客

表1.常用的元字符

代码/语法

说明

.

匹配除换行符以外的任意字符

\w

匹配字母或数字

\s

匹配任意的空白符

\d

匹配数字

\b

匹配单词的开始或结束

^

匹配字符串的开始

$

匹配字符串的结束

转义符\

当要查找元字符本身,如.*,需要使用\来取消这些字符的特殊意义。

重复

表2.常用的限定符

代码/语法

说明

*

重复零次或更多次

+

重复一次或更多次

?

重复零次或一次

{n}

重复n次

{n,}

重复n次或更多次

{n,m}

重复n到m次

字符类(choices)

[aeiou]匹配任何一个元音字母

[.?!]匹配标点符号(.或?或!)

[0-9]含意与\d就是完全一致的

[a-z0-9A-Z]也完全等同于\w

“或”条件or

0\d{2}-\d{8}|0\d{3}-\d{7}

匹配010-12345678两位区号或0376-2233445四位区号

分组

我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了。

(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次。

反义(取反,不匹配)

表3.常用的反义代码

代码/语法

说明

\W

匹配任意不是字母和数字的字符

\S

匹配任意不是空白符的字符

\D

匹配任意非数字的字符

\B

匹配不是单词开头或结束的位置

[^x]

匹配除了x以外的任意字符

[^aeiou]

匹配除了aeiou这几个字母以外的任意字符

例子:\S+代表不包含空白符的字符串。

<a[^>]+>代表用尖括号括起来的以a开头的字符串。

后向引用(引用分组)

表4.分组语法

捕获

(exp)

匹配exp,并捕获文本到自动命名的组里

(?<name>exp)

匹配exp,并捕获文本到名称为name的组里

(?:exp)

匹配exp,不捕获匹配的文本

位置指定

(?=exp)

匹配exp前面的位置

(?<=exp)

匹配exp后面的位置

(?!exp)

匹配后面跟的不是exp的位置

(?<!exp)

匹配前面不是exp的位置

注释

(?#comment)

这种类型的组不对正则表达式的处理产生任何影响,只是为了提供让人阅读注释

python的后向引用格式略有不同

https://blog.csdn.net/dnxbjyj/article/details/70837505

零宽断言(规定前面,后面是什么)

(?=exp),它断言自身出现的位置的后面能匹配表达式exp。比如\b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找*I'm singing while you're dancing.时,它会匹配sing和danc。

(?<=exp),它断言自身出现的位置的前面能匹配表达式exp。比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。

负向零宽断言(规定前面,后面不能是什么)

(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

(?<!exp)断言此位置的前面不能匹配表达式exp。(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。

注释

正则也可以加注释

通过语法(?#comment)来包含注释。例如:2[0-4]\d(?#200-249)|250-5|[01]?\d\d?(?#0-199)。

贪婪与懒惰

当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。

以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:

a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。

表5.懒惰量词

*?

重复任意次,但尽可能少重复

+?

重复1次或更多次,但尽可能少重复

??

重复0次或1次,但尽可能少重复

{n,m}?

重复n到m次,但尽可能少重复

{n,}?

重复n次以上,但尽可能少重复

参考

  1. https://deerchao.cn/tutorials/regex/regex.htm#charclass 一篇不错的教程
  2. https://blog.nowcoder.net/n/406680df92b8493db5caa443ff4d8d07 python正则表达式练习
  3. https://blog.csdn.net/qq_42648305/article/details/113841756 python re库入门
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 转义符\
  • 重复
  • 字符类(choices)
  • “或”条件or
  • 分组
  • 反义(取反,不匹配)
  • 后向引用(引用分组)
  • 零宽断言(规定前面,后面是什么)
  • 负向零宽断言(规定前面,后面不能是什么)
  • 注释
  • 贪婪与懒惰
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档