python-其它有用模块1

re模块(正则表达式)

re模块是文件处理中必不可少的模块,它主要应用于字符串的查找,定位等等,在使用网络爬虫时,即使没有爬虫框架,re模块配合urllib.request模块也可以完成简单的爬虫功能,先来看看正则表达式,python支持的正则表达式元字符和语法

1 字符

.  点匹配任意除换行符\n外的字符,abc匹配abc

\  转义字符,使后一个字符改变原来的意思,a\.bc匹配a.bc

[...]  字符集(字符类),对应字符集中的任意字符,第一个字符是^则取反,a[bc]d匹配abd或者acd

2 预定义字符集

\d  数字[0-9],匹配数字0-9

\D  非数字[^\d],即匹配非数字

\s  空白字符[空格\t\r\n\f\v]

\S  非空白字符[^\s]

\w  单词字符[a-zA-Z0-9]

\W  非单词字符[^\w]

3 数量词

*  匹配前一个字符0或者无限次,al*b 匹配 ab,alb,allb .....

+  匹配前一个字符1或者无限次,al+b 匹配 alb,allb .....

?  匹配前一个字符0或1次,al?b 匹配 ab,alb

{m}  匹配前一个字符m次,al{3}b 匹配 alllb

{m,n}  匹配前一个字符m至n次,al{2,3}b 匹配 allb,alllb

4 边界匹配

^  匹配字符串开头,如^abc 匹配 以abc开头的字符串

$  匹配字符串结尾,如xyz$ 匹配以xyz结尾的字符串

\A  仅匹配字符串开头,如\Aabc

\Z  仅匹配字符串结尾,如xyz\Z

python的re模块提供了两种不同的原始操作:match和search,match是从字符串的起点开始做匹配,而search是对字符串做任意匹配,最常用的几个re模块方法如下

re.compile(pattern,flags=0)  将字符串形式的正则表达式编译为Pattern对象

re.search(string[,pos[,endpos]])  从string的任意位置开始匹配

re.match(string[,pos[,endpos]])  从string的开头开始匹配

re.findall(string[,pos[,endpos]])  从string任意位置开始匹配,返回一个列表

re.finditer(string[,pos[,endpos]])  从string任意位置开始匹配,返回一个迭代器,一般匹配findall就可以了,大数量的匹配还是使用finditer比较好

简单的测试一下,打开IDLE执行命令

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

05:最大值和最小值的差

05:最大值和最小值的差 总时间限制:1000ms内存限制:65536kB描述 输出一个整数序列中最大的数和最小的数的差。 输入第一行为M,表示整数个数,整数个...

39250
来自专栏数据结构与算法

1002. 三角形 (

题目描述 输入三角形三边长a,b,c(保证能构成三角形),输出三角形面积。 输入 一行三个用一个空格隔开的实数a,b,c,表示三角形的三条边长。 输出 输出三角...

41160
来自专栏十月梦想

数据类型强制转换

上次提到过数据类型转换在输出的之前(),括号内加入需要转换的类型,这个是临时的转换,下面介绍一下临时转换和永久性数据类型转换。

24430
来自专栏Python小屋

Python内置函数max()高级用法

不管是排序还是选取最大值或者最小值,都应该有个规则或者顺序,而平时我们所说的最大值或最小值实际上也是在某种排序规则或顺序下的最大值和最小值。Python内置函数...

35740
来自专栏mySoul

C++命名空间

26920
来自专栏java一日一条

常见Java面试题 – 第三部分:重载(overloading)与重写(overriding)

这篇文章介绍的常见面试题是关于重载(overloading)方法和重写(overriding)方法的。Q.下面代码片段的输出结果是什么?

9020
来自专栏领域驱动设计DDD实战进阶

07-TypeScript的For循环

在传统的JavaScript中,关于循环,可以有两种方式,一种是forEach,一种是for。 forEach的用法如下: var sarr=[1,2,3,4]...

36740
来自专栏WD学习记录

js学习2016-8-16

    当一个函数被保存为对象的一个属性时,我们称它为一个方法。如果调用表达式包含一个提取属性的动作,(即我们讲解对象时所说的.操作符),那么它就被当做一个方法...

8810
来自专栏向治洪

传统多线程之前如何共享数据

几种方式 线程执行代码相同,使用同一Runnable对象,Runnable对象中有共享数据 线程执行代码不同,将共享数据封装在另一对象中(操作数据的方法也在该...

194100
来自专栏Rgc

python中赋值,深拷贝,浅拷贝区别

这三种不适合 int,str,float,bool等类型。因为这些类型在值改变后,被赋值的变量值不变。

39620

扫码关注云+社区

领取腾讯云代金券