Python 学习之正则表达式「上 」

开始今天的内容之前,先说一下前两天分享过的关于图形用户界面编程 「Tkinter」 的内容代码已经放在公号后台

百度百科上关于正则表达式的解释:

  • 正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为 regex、regexp 或 RE ),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
  • 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。
  • Python 从 1.5 版本开始增加了 re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。

为了证明正则表达式功能的强大之处,我们先用个小例子体现一下:

例:判断是否是手机号码

未采用正则表达式

# 用之前学过的知识判断输入的是否是手机号码

def isPhoneNumber(str):

    if len(str) != 11:
        return False
    elif str[0] != "1":
        return False
    # 这里只列出了常见的几种手机号码的开头
    elif str[1:3] != "31" and str[1:3] != "32" and str[1:3] != "38" and str[1:3] != "39" and str[1:3] != "47" and str[1:3] != "51" and str[1:3] != "57" and str[1:3] != "78" and str[1:3] != "86" and str[1:3] != "88":
        return False

    for i in range(3, 11):
        if str[i] < "0" or str[i] > "9":
            return False
    return True

phoneNumber = input("请输入您的手机号:")
print(isPhoneNumber(phoneNumber))

采用正则表达式

def isPhoneNumber(phoneNumber):

    pat = r"^1(([3578]\d)|(47))\d{8}$"
    print(re.match(pat, phoneNumber))

phoneNumber = input("请输入您的手机号:")
isPhoneNumber(phoneNumber)

相信你此刻已经感受到了它的强大之处,接下来就让我们开始正则表达式的学习。先来介绍一下 re 模块。

re模块介绍

常用函数

  1. re.match()函数:扫描整个字符串,返回从起始位置成功的匹配 语法:re.match(pattern, string, flags=0) pattern 匹配的正则表达式;string 要匹配的字符串;flags 标志位,用于控制正则表达式的匹配方式,常见值如下:(re.I 忽略大小写;re.M 多行匹配)
  2. re.search()函数:扫描整个字符串,并返回第一个成功的匹配(语法同上
  3. findall()函数:扫描整个字符串,并返回结果列表(语法同上

代码块

import re

# 扫描整个字符串,注意返回从起始位置成功的匹配
print(re.match("To", "To be a better man !"))  # <_sre.SRE_Match object; span=(0, 2), match='To'>
print(re.match("To", "be To a better man !"))  # None
print(re.match("to", "To be a better man !", flags=re.I))

# 扫描整个字符串,并返回第一个成功的匹配
print(re.search("To", "be To a better man !"))  # <_sre.SRE_Match object; span=(3, 5), match='To'>

# 扫描整个字符串,并返回结果列表
print(re.findall("To", "To be a better man and to make right decision !", flags=re.I))  # ['To', 'to'] 

匹配字符

匹配单个字符

  • . 匹配除换行符以外的任意字符
  • [123abc] []是字符集和,表示匹配方括号中所包含的任意一个字符
  • [^ Mark] 匹配除了 Mark 这几个字母以外的所有字符,中括号里的 ^ 称为脱字符,表示不匹配集合中的字符
  • \d 匹配数字,效果同 [0-9]
  • \D 匹配非数字字符,效果同 [^0-9]
  • \w 匹配数字、字母和下划线,效果同 [0-9a-zA-Z_]
  • \W 匹配非数字、字母和下划线,效果同 [^0-9a-zA-Z_]
  • \s 匹配任意的空白符(空格、换行、回车、换页、制表),效果同 [ \n\r\f\t]
  • \S 匹配任意的非空白符,效果同 [^ \n\r\f\t]

代码块

import re
print(re.findall(".", "To be a \n better man !"))
print(re.findall("[better]", "To be a \n better man !"))
print(re.findall("[^To be a]", "To be a \n better man !"))
print(re.findall("\d", "95 To be a better man ! 0831"))
print(re.findall("\w", "95 To be a better man ! 0831"))
print(re.findall("\s", "95 To be a better man ! 0831"))

锚字符(边界字符)

  • ^ 行首匹配,和在 [] 里的 ^ 不是一个意思
  • $ 行尾匹配
  • \A 匹配字符串的开始,它和 ^ 的区别是,\A 只匹配整个字符串的开头,即使在 re.M 模式下也不会匹配其它行的行首
  • \Z 匹配字符串的结尾,它和 $ 的区别是,\Z 只匹配整个字符串的结尾,即使在 re.M 模式下也不会匹配其它行的行尾
  • \b 匹配一个单词的边界,也就是指单词和空格间的位置
  • \B 匹配非单词边界

代码块

import re
print(re.search("^To", "To be a better man !"))
print(re.search("!$", "To be a better man !"))
print(re.findall("\ATo", "To be a  better man !\nTo be a  better man !", re.M))
print(re.findall("^To", "To be a  better man !\nTo be a  better man !", re.M))
print(re.search(r"er\b", "better"))

匹配多个字符

说明:下方的 x、y、z 均为假设的普通字符,不是正则表达式的元字符,m n 表示非负整数

  • (xyz) 匹配小括号内的 xyz (作为一个整体去匹配)
  • x? 匹配 0 个或者 1 个 x
  • x* 匹配 0 个或者任意多个 x
  • x+ 匹配至少一个 x
  • x{n} 匹配确定的 n 个 x( n 是一个非负整数)
  • x{n,} 匹配至少 n 个 x
  • x{n,m} 匹配至少 n 个最多 m 个 x,注意:n <= m

代码块

import re
# 贪婪匹配,尽可能多的匹配;非贪婪匹配,尽可能少的匹配
print(re.findall(r"(better)", "To be a better man !"))  # ['better']
print(re.findall(r"a?", "aaaaaa"))  # ['a', 'a', 'a', 'a', 'a', 'a', '']
print(re.findall(r"a*", "aaaaaa"))  # ['aaaaaa', '']
print(re.findall(r"a+", "aaaaaaba"))  # ['aaaaaa', 'a']
print(re.findall(r"a{3}", "aaaaaa"))  # ['aaa', 'aaa']
print(re.findall(r"a{4,}", "aaaaaabaaaacaaa"))  # ['aaaaaa', 'aaaa']
print(re.findall(r"a{4,5}", "aaaaaabaaaacaaa"))  # ['aaaaa', 'aaaa']
print(re.findall(r"((M|m)ark)", "Mark mark"))  # [('Mark', 'M'), ('mark', 'm')]

特殊

  • *? +? x? 最小匹配,通常都是尽可能多的匹配,可以使用这种方式进行最小匹配

代码块

# 对 * 进行转义,进行非贪婪匹配
print(re.findall(r"//*.*?/*/", r"/* one */ /* two */ "))  # ['/* one */', '/* two */']

大家可以去写一下关于 QQ 、邮箱、电话、用户名、密码、IP地址、URL的正则表达式来练下手。

END

原文发布于微信公众号 - Python梦工厂(AzMark950831)

原文发表时间:2018-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python、Flask、Django

python中的filter函数

10620
来自专栏xingoo, 一个梦想做发明家的程序员

剑指OFFER之链表中倒数第k个节点(九度OJ1517)

题目描述: 输入一个链表,输出该链表中倒数第k个结点。 (hint: 请务必使用链表。) 输入: 输入可能包含多个测试样例,输入以EOF结束。 对于每个测试案例...

20690
来自专栏小樱的经验随笔

C++STL中map容器的说明和使用技巧(杂谈)

1、map简介 map是一类关联式容器。它的特点是增加和删除节点对迭代器的影响很小,除了那个操作节点,对其他的节点都没有什么影响。对于迭代器来说,可以修改实值,...

35250
来自专栏Micro_awake web

javascript(三):对象

 对象(object)是javascript中很重要的数据类型。对象是“键值对”的集合,同时也是无序的。(注意:对象结尾处有分号) 1 var ob1={ ...

209100
来自专栏乐沙弥的世界

MongoDB 数组查询

三、小结 a、数组查询有精确和模糊之分,精确匹配需要指定数据元素的全部值 b、数组查询可以通过下标的方式进行查询 c、数组内嵌套文档可以通过.成员的...

77920
来自专栏灯塔大数据

技术 | Python从零开始系列连载(九)

导读 Python特色数据类型(元组)(上) 元组(tuple) 元组是Python的另一种特色的数据类型 元组和列表是相似的 可以存储不同类型的数据 但是!划...

32560
来自专栏猿人谷

静态代码块

      一个类可以使用不包含在任何方法体中的静态代码块,当类被载入时,静态代码块被执行,且只执行一次,静态代码块经常用来进行类属性的初始化。 如下例所示: ...

21890
来自专栏小二的折腾日记

day5(面向对象2)

1.指定类型的数组到底要定义多长呢? 当指定类型的数组长度小于集合的size,那么该方法会创建一个新的数组,长度为集合的size。当指定类型的数组长度小于了集合...

9430
来自专栏跟着阿笨一起玩NET

C#序列化反序列化帮助类

66900
来自专栏丑胖侠

《Drools7.0.0.Final规则引擎教程》第4章 4.4 约束(Pattern的一部分)

4.4.3 约束(Pattern的一部分) 前面我们已经介绍了条件约束在Pattern中位置了,那么什么是条件约束呢?简单来说就是一个返回true或者false...

28680

扫码关注云+社区

领取腾讯云代金券