前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python-其它有用模块1

python-其它有用模块1

作者头像
py3study
发布2018-08-02 15:25:45
3200
发布2018-08-02 15:25:45
举报
文章被收录于专栏:python3python3

re模块(正则表达式)

re模块是文件处理中必不可少的模块,它主要应用于字符串的查找,定位等等,在使用网络爬虫时,即使没有爬虫框架,re模块配合urllib.request模块也可以完成简单的爬虫功能,先来看看正则表达式,python支持的正则表达式元字符和语法

1 字符

.  点匹配任意除换行符\n外的字符,abc匹配abc

\  转义字符,使后一个字符改变原来的意思,a\.bc匹配a.bc

[...]  字符集(字符类),对应字符集中的任意字符,第一个字符是^则取反,a[bc]d匹配abd或者acd

2 预定义字符集

\d  数字[0-9],匹配数字0-9

\D  非数字[^\d],即匹配非数字

\s  空白字符[空格\t\r\n\f\v]

\S  非空白字符[^\s]

\w  单词字符[a-zA-Z0-9]

\W  非单词字符[^\w]

3 数量词

*  匹配前一个字符0或者无限次,al*b 匹配 ab,alb,allb .....

+  匹配前一个字符1或者无限次,al+b 匹配 alb,allb .....

?  匹配前一个字符0或1次,al?b 匹配 ab,alb

{m}  匹配前一个字符m次,al{3}b 匹配 alllb

{m,n}  匹配前一个字符m至n次,al{2,3}b 匹配 allb,alllb

4 边界匹配

^  匹配字符串开头,如^abc 匹配 以abc开头的字符串

$  匹配字符串结尾,如xyz$ 匹配以xyz结尾的字符串

\A  仅匹配字符串开头,如\Aabc

\Z  仅匹配字符串结尾,如xyz\Z

python的re模块提供了两种不同的原始操作:match和search,match是从字符串的起点开始做匹配,而search是对字符串做任意匹配,最常用的几个re模块方法如下

re.compile(pattern,flags=0)  将字符串形式的正则表达式编译为Pattern对象

re.search(string[,pos[,endpos]])  从string的任意位置开始匹配

re.match(string[,pos[,endpos]])  从string的开头开始匹配

re.findall(string[,pos[,endpos]])  从string任意位置开始匹配,返回一个列表

re.finditer(string[,pos[,endpos]])  从string任意位置开始匹配,返回一个迭代器,一般匹配findall就可以了,大数量的匹配还是使用finditer比较好

简单的测试一下,打开IDLE执行命令

blob.png
blob.png
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-12-11 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档