Python 学习之正则表达式“上”

文章来源：企鹅号 - TheMark

阅读文本大概需要 6 分钟

百度百科上关于正则表达式的解释：

正则表达式，又称规则表达式。（英语：Regular Expression，在代码中常简写为 regex、regexp 或 RE ），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，模式描述在搜索文本时要匹配的一个或多个字符串。

Python 从1.5版本开始增加了re模块，它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。

为了证明正则表达式功能的强大之处，我们先用个小例子体现一下：

例：判断是否是手机号码

未采用正则表达式

# 用之前学过的知识判断输入的是否是手机号码

defisPhoneNumber(str):

iflen(str) !=11:

returnFalse

elifstr[] !="1":

returnFalse

# 这里只列出了常见的几种手机号码的开头

elifstr[1:3] !="31"andstr[1:3] !="32"andstr[1:3] !="38"andstr[1:3] !="39"andstr[1:3] !="47"andstr[1:3] !="51"andstr[1:3] !="57"andstr[1:3] !="78"andstr[1:3] !="86"andstr[1:3] !="88":

returnFalse

foriinrange(3,11):

ifstr[i] "9":

returnFalse

returnTrue

phoneNumber = input("请输入您的手机号：")

print(isPhoneNumber(phoneNumber))

采用正则表达式

defisPhoneNumber(phoneNumber):

pat =r"^1(([3578]\d)|(47))\d$"

print(re.match(pat, phoneNumber))

phoneNumber = input("请输入您的手机号：")

isPhoneNumber(phoneNumber)

相信你此刻已经感受到了它的强大之处，接下来就让我们开始正则表达式的学习。先来介绍一下 re 模块。

re模块介绍

常用函数

re.match()函数：扫描整个字符串，返回从起始位置成功的匹配

语法：re.match(pattern, string, flags=0)

pattern 匹配的正则表达式；string 要匹配的字符串；flags 标志位，用于控制正则表达式的匹配方式，常见值如下：（re.I 忽略大小写；re.M 多行匹配）

re.search()函数：扫描整个字符串，并返回第一个成功的匹配（语法同上）

findall()函数：扫描整个字符串，并返回结果列表（语法同上）

代码块

importre

# 扫描整个字符串，注意返回从起始位置成功的匹配

print(re.match("To","To be a better man !"))#

print(re.match("To","be To a better man !"))# None

print(re.match("to","To be a better man !", flags=re.I))

# 扫描整个字符串，并返回第一个成功的匹配

print(re.search("To","be To a better man !"))#

# 扫描整个字符串，并返回结果列表

print(re.findall("To","To be a better man and to make right decision !", flags=re.I))# ['To', 'to']

匹配字符

匹配单个字符

. 匹配除换行符以外的任意字符

[123abc] []是字符集和，表示匹配方括号中所包含的任意一个字符

[^ Mark] 匹配除了 Mark 这几个字母以外的所有字符，中括号里的 ^ 称为脱字符，表示不匹配集合中的字符

\d 匹配数字，效果同 [0-9]

\D 匹配非数字字符，效果同 [^0-9]

\w 匹配数字、字母和下划线，效果同 [0-9a-zA-Z_]

\W 匹配非数字、字母和下划线，效果同 [^0-9a-zA-Z_]

\s 匹配任意的空白符（空格、换行、回车、换页、制表），效果同 [ \n\r\f\t]

\S 匹配任意的非空白符，效果同 [^ \n\r\f\t]

代码块

importre

print(re.findall(".","To be a \n better man !"))

print(re.findall("[better]","To be a \n better man !"))

print(re.findall("[^To be a]","To be a \n better man !"))

print(re.findall("\d","95 To be a better man ! 0831"))

print(re.findall("\w","95 To be a better man ! 0831"))

print(re.findall("\s","95 To be a better man ! 0831"))

锚字符（边界字符）

^ 行首匹配，和在 [] 里的 ^ 不是一个意思

$ 行尾匹配

\A 匹配字符串的开始，它和 ^ 的区别是，\A 只匹配整个字符串的开头，即使在 re.M 模式下也不会匹配其它行的行首

\Z 匹配字符串的结尾，它和 $ 的区别是，\Z 只匹配整个字符串的结尾，即使在 re.M 模式下也不会匹配其它行的行尾

\b 匹配一个单词的边界，也就是指单词和空格间的位置

\B 匹配非单词边界

代码块

importre

print(re.search("^To","To be a better man !"))

print(re.search("!$","To be a better man !"))

print(re.findall("\ATo","To be a better man !\nTo be a better man !", re.M))

print(re.findall("^To","To be a better man !\nTo be a better man !", re.M))

print(re.search(r"er\b","better"))

匹配多个字符

说明：下方的 x、y、z 均为假设的普通字符，不是正则表达式的元字符，m n 表示非负整数

(xyz) 匹配小括号内的 xyz (作为一个整体去匹配)

x? 匹配 0 个或者 1 个 x

x* 匹配 0 个或者任意多个 x

x+ 匹配至少一个 x

x 匹配确定的 n 个 x（ n 是一个非负整数）

x 匹配至少 n 个 x

x 匹配至少 n 个最多 m 个 x，注意：n

代码块

importre

# 贪婪匹配，尽可能多的匹配；非贪婪匹配，尽可能少的匹配

print(re.findall(r"(better)","To be a better man !"))# ['better']

print(re.findall(r"a?","aaaaaa"))# ['a', 'a', 'a', 'a', 'a', 'a', '']

print(re.findall(r"a*","aaaaaa"))# ['aaaaaa', '']

print(re.findall(r"a+","aaaaaaba"))# ['aaaaaa', 'a']

print(re.findall(r"a","aaaaaa"))# ['aaa', 'aaa']

print(re.findall(r"a","aaaaaabaaaacaaa"))# ['aaaaaa', 'aaaa']

print(re.findall(r"a","aaaaaabaaaacaaa"))# ['aaaaa', 'aaaa']

print(re.findall(r"((M|m)ark)","Mark mark"))# [('Mark', 'M'), ('mark', 'm')]

特殊

*? +? x? 最小匹配，通常都是尽可能多的匹配，可以使用这种方式进行最小匹配

代码块

# 对 * 进行转义，进行非贪婪匹配

print(re.findall(r"//*.*?/*/",r"/* one */ /* two */ "))# ['/* one */', '/* two */']

大家可以去写一下关于 QQ 、邮箱、电话、用户名、密码、IP地址、URL的正则表达式来练下手。

END

发表于: 2018-07-042018-07-04 23:15:12
原文链接：https://kuaibao.qq.com/s/20180704G1X0BE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python 学习之正则表达式“上”

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐