专栏首页Mintimate's Blog一篇文章,轻松入门Python中的正则表达式
原创

一篇文章,轻松入门Python中的正则表达式

作者:Mintimate

博客:https://www.mintimate.cn

Mintimate's Blog,只为与你分享

封面图

前言

正则表达式,广泛用于与文字、字符串的格式化,放到Python里使用,再合适不过;尤其是在编写爬虫时,用正则表达式匹配URL、匹配IP等,正则表达式都是一个简单、高效的选择

Python里的正则表达式

Python里的正则表达式,无需下载外部模块,只需要引入自带模块re

import re

官方re模块文档: https://docs.python.org/zh-cn/3.9/library/re.html

同时,Python的正则表达式是PCRE标准的,相较于广泛应用在Unix上的POSIX标准,还是有些区别的(主要是简化)

基本方法

观察re源码,其主要的接口方法有:

  • match(...):从字符串的起始位置匹配一个模式,如果无法匹配成功,则match()就返回none
  • fullmatch(...):是match函数的完全匹配(从字符串开头到结尾)版本
  • search(...):扫描整个字符串并(默认)返回第一个成功的匹配
  • sub(...):用于替换字符串中的匹配项
  • subn(...):和sub(...)类似,但返回值多一个替换次数
  • split(...):分割字符串,返回列表形式
  • findall(...):在字符串中找到正则表达式所匹配的所有子串,并返回一个列表形式,如果没有找到匹配的,则返回空列表。
  • finditer(...):和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回
  • compile(...):用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用
  • purge(...):用于清除正则表达式缓存

其中,本文主要会介绍的方法为:match(...)search(...)findall(...)spilt(...)。不过,方法都类似,会这些方法,剩下的也大同小异。

元字符与预定义字符集

我认为,元字符算和预定义字符集是正则表达式的核心内容了。

预定义字符集:

预定义字符

说明

\w

匹配下划线“”或任何字母(a-zA-Z)与数字(0-9)等价于a-zA-Z0-9

\W

与\w相反,匹配特殊字符等价于^a-zA-Z0-9_

\s

匹配任意的空白字符,等价于<空格>\r\n\f\v

\S

与\s相反,匹配任意非空白字符的字符,等价于^\s

\d

匹配任意数字,等价于0-9

\D

与\d相反,匹配任意非数字的字符,等价于^\d

\b

匹配单词的边界

\B

与\b相反,匹配不出现在单词边界的元素

\A

仅匹配字符串开头,等价于^

\Z

仅匹配字符串结尾,等价于$

元字符:

元字符

说明

.

匹配任何一个字符(除换行符\n除外)

^

脱字符,匹配行的开始

$

美元符,匹配行的结束

|

连接多个可选元素,匹配表达式中出现的任意子项

[]

字符组,匹配其中的出现的任意一个字符

-

连字符,表示范围,如“1-5”等价于“1、2、3、4、5”

?

匹配其前导元素0次或1次

*

匹配其前导元素0次或多次

+

匹配其前导元素1次或多次

{n}/{m,n}

匹配其前导元素n次/匹配其前导元素m~n次

()

在模式中划分出子模式,并保存子模式的匹配结果

一般来说,使用+?*{n}{n,}{n,m}时,即激活正则表达式的贪婪模式。可以在其后加入?来取消贪婪模式。

贪婪模式

一般来见,重复多次匹配就是贪婪模式,也就是尽可能匹配多个字符。

比如:

import re

lineOne = "Who is the Mintimate"
# 贪婪模式
print(re.findall(r'\w+',lineOne))
# 非贪婪模式
print(re.findall(r'\w',lineOne))
print(re.findall(r'\w+?',lineOne))

输出:

['Who', 'is', 'the', 'Mintimate']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']

可以看到,使用?来激活非贪婪模式,基本是让多次匹配无效化。

捕获与非捕获括号

之所以捕获与非捕获括号单独出来讲,其实是我当时学习正则时候,这边卡了很久。

  • 捕获括号:()
  • 非捕获括号:(?:)

捕获括号其实就是代码里的优先级一样,比如:

2*(2+3)=10

之所以,我们会先算2+3,是因为有()的存在。正则里也是,如果存在(),则会优先捕获()内的内容:

import re

lineOne = "Who is Mintimate?"
# 未使用捕获括号
print(re.findall(r'Mintimate',lineOne))
# 使用捕获括号
print(re.findall(r'M(intimate)',lineOne))
# 使用非捕获括号
print(re.findall(r'M(?:intimate)',lineOne))

输出结果:

['Mintimate']
['intimate']
['Mintimate']

而非捕获括号主要与|同时使用:

import re

lineOne = "This is the Mintimate,not the Minimen?"
print(re.findall(r'M(?:intimate|inimen)',lineOne))

输出结果:

['Mintimate', 'Minimen']

正则匹配(判断目标格式)

主要讲解Python下的几个方法使用方法。

match匹配

match(...)即:

re.match(pattern, string, flags=0)

参数的具体含义如下:

  • pattern:表示需要传入的正则表达式。
  • string:表示待匹配的目标文本。
  • flags:表示使用的匹配模式。如:是否区分大小写,多行匹配等等。可省略,默认为0

使用match进行正则匹配,可以方便我们对字符串内类型的判断,如:是否为纯数字或第一位数否为数字

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.match(r"\d", lineOne))
print(re.match(r"\d+", lineOne))
print("===")
print(re.match(r"\d", lineTwo))
print(re.match(r"\d+", lineTwo))

输出结果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 7), match='7704194'>
===
None
None

其中,\d为匹配0-9的数字类型,而+是匹配出现1次或多次。

正则搜索(提取/分组字符)

正则搜索,常用的是search和findall方法了,方法体均一样:

re.search(pattern, string, flags=0)
re.findall(pattern, string, flags=0)

search和march类似,均是匹配字符串内容,不符合返回None。但是主要区别:

  • re.match() 从第一个字符开始找, 如果第一个字符就不匹配就返回None, 不继续匹配. 用于判断字符串开头或整个字符串是否匹配,速度快
  • re.search() 会整个字符串查找,直到找到一个匹配

代码中更形象:

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
# 使用match搜索纯数字字符串
print(re.match(r"\d", lineOne))
# 使用search搜索纯数字字符串
print(re.search(r"\d", lineOne))
# 使用match搜索复合字符串
print(re.match(r"\d", lineTwo))
# 使用search搜索复合字符串
print(re.search(r"\d", lineTwo))

其输出结果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 1), match='7'>
None
<re.Match object; span=(31, 32), match='7'>

而findall,在上match和search的前提下,进一步封装。相对于强化版的match和search

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))

输出结果:

['7', '7', '0', '4', '1', '9', '4']
['7', '7', '0', '4', '1', '9', '4']

而如果你想完成提取:

print(re.findall(r"\d+",lineTwo))

输出:

['7704194']

方便在数据处理时,快速提取连续数字╮( ̄▽ ̄"")╭。

操作实例

单单看文档,总是不实际。这边我演示几个正则表达式的实例(我根据我自己使用环境所写,可能在其他特殊环境有问题

URL去参

在写爬虫时候,有时候得到的URL是带标签(#)或者Get请求(?id=*)的,但是有时候我们需要去除这些参数,得到纯净的URL地址,这个时候可以用正则表达式:

lineOne = "https://www.mintimate.cn#mintimate"
lineTwo = "https://www.mintimate.cn?user=mintimate"
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne))
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))

效果:

['https://www.mintimate.cn']
['https://www.mintimate.cn']

这里主要的细节:

  • https?:匹配http或https
  • (?:):非捕获括号,用于和后续|进行配合

IPv4匹配

用正则匹配IPv4就比较复杂了,我是这样写的:

import re

lineOne = "192.168.1.1"
lineTwo="这不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))

输出结果为:

<re.Match object; span=(0, 11), match='192.168.1.1'>
None

解释一下:

  • 末尾的{3},代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重复三次匹配,
  • 而前面的((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我们可以拆分为两部分,(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}:前者是匹配首位为2开头、第二位为1到5或1到4、最后一位为0到9;后者是匹配第一位为0或1,且?代表可以不存在这一项,后两位为两位0-9的数字。

效率问题

使用正则表达式,很大程度是为了精简代码,但是存在一下问题:

  • 代码可读性降低:普通的匹配数字还好,但是如果都像IPv4这样的,一定程度可读性就降低了,维护成本高(虽然后期一般不回去改)
  • 解析时间长:这个还是要看具体代码,但是总的来说:贪婪模式相比懒惰模式以及独占模式有一个回溯过程,消耗资源会更多。

解决方案:

  • 一条正则表达式规则如果运用上百次,可以使用compile()方法进行预先加载。
  • 减少使用贪婪模式。

总结

正则表达式是一个很重要的工具,尤其是在Python数据处理时,能高效处理问题事件。看完这篇文章后,应该对正则表达式不在陌生,感兴趣可以自己写个正则规则,如:强密码判断、IPv6的判断等

另外,因为篇幅所限,更多Python内的细则,可以参考官方文档:

- https://docs.python.org/zh-cn/3.9/library/re.html

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • 轻松学Python,一篇文章带你快速入门

    Python基础01 Hello World! ? Python命令行 假设你已经安装好了Python, 那么在命令提示符输入: python 将直接进入pyt...

    企鹅号小编
  • 一篇文章带你搞懂Python中的类

    今天我们要说的是面向对象的核心-----类,类能帮我们把复杂的事情变得有条理,有顺序,希望大家通过学习类能改善自己的编码风格,使代码变得更为好看,更加通俗易懂。

    Python进阶者
  • 一篇文章踩遍Python中的坑

    这个问题是变量作用域问题,在gen=(x for _ in xrange(10))中gen是一个generator,在generator中变量有自己的一套作用域...

    sergiojune
  • 渗透测试人员一篇文章入门python语言

    python在设计上坚持了清晰划一的风格,这使得python成为一门易读、易维护,并且被大量用户所欢迎的、用途广泛的语言。

    释然
  • 一篇值得收藏的正则表达式文章

    目前越来越多的网站、编辑器、编程语言都已支持一种叫“正则表达式”的字符串查找“公式”,有过编程经验的同学都应该了解正则表达式(Regular Expressio...

    龙哥
  • Python 多线程入门,这一篇文章就够了

    提及 Python 啊,我想你首先想到的就是「人生苦短,我用 Python」了。现在 Python 的热度可谓是非常的高,感觉程序员要是不学 Python 的话...

    与你一起学算法
  • 一篇文章带你搞定Python中logging模块

    日志是什么?这个不用多解释。百分之九十的程序都需要提供日志功能。Python内置的logging模块,为我们提供了现成的高效好用的日志解决方案。但是,不是所有的...

    Go进阶者
  • 一篇文章带你搞定Python中shutil模块

    shutil可以简单地理解为sh + util,shell工具的意思。shutil模块是对os模块的补充,主要针对文件的拷贝、删除、移动、压缩和解压操作。

    Go进阶者
  • 一篇文章让你轻松了解 Vue3.2 中的 Setup 语法糖

    前端达人
  • [长文] 学Python不用培训班,一篇文章带你入门

    最近有许多小伙伴后台联系我,说目前想要学习Python,但是没有一份很好的资料入门。一方面的确现在市面上Python的资料过多,导致新手会不知如何选择,另一个问...

    TechFlow-承志
  • Python正则表达式很难?一篇文章搞定他,不是我吹!

    1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个。

    一墨编程学习
  • 推荐一篇ODP.NET开发入门的文章

    以前基本上没用.Net开发过连接Oracle的应用,仅有的几个也是在BPM开发中读取Oracle的数据生成XML文件,但当时用的是MSSQL的Linked Se...

    崔文远TroyCui
  • 一篇文章带你搞定Python中urllib库(操作URL)

    urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应:

    Go进阶者
  • 一篇文章理清python的字符编码

    最近在用python接受网络数据的时候,输出时总是遇到编码的问题,虽然都解决了,但深刻意识到自己其实对python的编码并没有清晰的认识,所以才会遇到这样的问...

    梦飞
  • 一篇文章教你如何用 Redis 轻松实现秒杀系统的构思

    用上这三招,不论秒杀时负载多大,都能轻松应对。更好的是,Redis能够满足上述三点。因此,用Redis就能轻松实现秒杀系统。 用我这个方案,无论是电商平台特价秒...

    Java周某人
  • Thinkphp 3.2中文章详情页的上一篇 下一篇文章功能

    获取上一篇文章的原理,其实就是以当前文章的id为起点进行进行查询,例如id=5的文章

    全栈程序员站长
  • 一篇文章助力大家理解Python 代码中的垃圾回收机制

    GNE: 新闻网页正文通用抽取器[1]更新了0.2.1版本,大幅度提高了正文的提取速度。在开发这个版本的时候,我遇到了一个非常奇怪的 Bug,最终发现是由于垃圾...

    Python进阶者
  • 一篇文章帮你解决python的包管理

    写python代码的人都知道,一个项目写下下来,不可避免的都需要使用很多第三方包,通常我们都是通过pip install ,然而当我们需要上线的时候问题来了,如...

    coders
  • Python中的正则表达式

    句点(.)符号匹配除了换行符\n以外的任何字符。无论字母、数字、空格(不包括\n换行符)、可打印字符、不可打印字符,使用.都可以匹配。

    py3study

扫码关注腾讯云开发者

领取腾讯云代金券