首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫必学知识之正则表达式下篇

这是日常学python的第13篇原创文章

继上篇文章说了正则表达式的简单用法,那今天我们就继续说一下正则表达式的复杂的用法。好了,废话不多说,直接进入正题。

正则表达式

情景:当你想要匹配一个qq号,qq号码长度为5-10位,那根据上篇文章的说法,很容易就可以想到该正则:

这样是可以的,但是当你匹配一个长度大于10的号码时就会出错,这时就会去该字符串的前10个数字出来,如下:

这样的话你就会得到一个错误的qq号码。

这时就需要引入边界匹配了:

^:这个是从左边开始匹配,规定左边的首个字符

$:这个是从右边开始匹配,规定右边的首个字母

现在再写个匹配qq号码的正则

这样就可以匹配到了,是不是很神奇?

:前面我们有用[ ]来匹配,中括号里面表示的是或关系,而这里的组表示的是并关系,并且用小括号括起来( )

比如:重复 python 字样三次

这里的结果不是返回三个python,而是返回这个组,当符合一次就会将此组添加到返回列表中一次。

这个组还挺好用的,再看下这个需求:获取下列英文中的life和python之间的内容。

这个组还常用,因为在我们经常在用正则来解析html元素时,经常需要获取两个标签之间的内容,标签是确定的,标签内容不确定,就可以用这个了。如下这个html元素:

这样就可以用组来获取a标签的内容了:(.*?)。?表示非贪婪哦!

re.findall(pattern,string,flags):这个方法的前两个参数对你们来说都很熟悉了,第一个参数为正则表达式,第二个参数为要进行匹配的字符串,而第三个可选参数为匹配模式,有如下几种匹配模式:

re.I(re.IGNORECASE) :使匹配对大小写不敏感

re.L(re.LOCAL):做本地化识别(locale-aware)匹配

re.M(re.MULTILINE):多行匹配,影响 ^ 和 $

re.S(re.DOTALL):使.匹配包括换行在内的所有字符(这个常用)

re.U(re.UNICODE):根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.

re.X(re.VERBOSE):该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

当需要写多个匹配模式时,可以用|分隔每个模式

代码如下:

正则除了可以用来检索字符串,还可以用来替换字符串,常见的可以用来替换那些文本中的空格,制表符和回车等,这些都是用一个正则就可以搞定的了。

python中用这个方法来进行正则替换

re.sub(pattern, repl, string, count=0, flags=0)

pattern :正则表达式

repl :替换后的字符串,可为函数

string :要进行替换的字符串

count :替换的次数,顺序为 从左往右,默认值为0,表示无限次。

falgs : 匹配模式,和findall()差不多

代码如下:

我们试试第二个参数为函数的情况

这个第二个参数为convert函数,里面的.group()方法是获取匹配后的字符串的值,所以我们就可以根据匹配后的字符串来进行相对应的替换内容,比如这个简单的小需求:

把字符串中的数字大于50的改为99,小于的就改为11。

另谈两个函数

re.match(pattern,string,flags) :这个是从字符串的首个字母开始匹配,若首个字母不符合,就会返回None, 反之返回一个 Match对象。而他只会匹配第一个结果,不会返回所有符合结果的内容。参数内容与findall()方法一样。

re.search(pattern,string,flags) :这个与match方法差不多,不过不是从首字符开始匹配,也是只返回一个正确的匹配内容。

代码:

这两个函数返回的内容的几个属性:

group() :获取匹配的内容

statr() :获取到匹配字符的起始位置

end() :获取匹配到字符的结束位置

span() :获取匹配到字符的起始和结束位置,元组形式返回。

前面提到组的概念,试下这两个方法的组的用法:

上面的代码注释已经很清楚了,还有个group()方法是获取整个正则匹配的内容,不按分组。match()方法也一样,就不演示了。

最后一个问题:怎样拆分含有多种分隔符的字符串?

比如:kfs;hsji'fhsikf*bhsfk=jsf/shj。要将不属于字母的都去掉,你是不是会想到用字符串的循环,然后再一个一个分割出来?我告诉你,学了正则之后,再也不用这么麻烦了。re库里面有个split()方法,如下:

re.split(pattern, string, maxsplit=0),参数看名字应该就能知道。直接一行代码进行分割:

是不是很完美?所以说正则必须得学!

END

这个正则复杂点的已经说完了,还有些进阶的,不过暂时没有用到,就不打算说了,需要的可以去百度看看哈!

留个小练习证明自己正则学得好怎么样:

3. meiya@cn-meiya.com

用正则把上面的@与com之间的内容匹配出来,可以把你的答案写在留言区上,过两天在留言区公布答案哈!

上述文章如有错误欢迎在留言区指出,如果这篇文章对你有用,点个赞,转个发如何?

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180320A14YFE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券