首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python智爬1-正则表达式1

从本篇开始,会陆续介绍一些爬虫类的学习心得,我也是刚入门自学,欢迎各位一起交流,本人水平有限,难免出现错误,欢迎指正。

正则表达式是一种用来匹配字符串的强有力的功能。Python中的re模块使其拥有了正则表达式的功能。

1、re.match()

功能说明:从字符串的起始位置开始匹配,如果匹配失败就返回None,必须是起始开始匹配,即使是中间能匹配成功,也返回None。

match(pattern, string, flags=0)

参数说明:

patter: 匹配的正则表达式

string: 要匹配的字符串

flags: 标志位,用于控制正则表达式的匹配方式,常用的值有以下几种

示例:

输出:

2、re.search()

功能说明:在整个字符串里进行匹配,如果匹配失败就返回None。只返回第一个匹配结果。

search(pattern, string, flags=0)

参数说明:

patter: 匹配的正则表达式

string: 要匹配的字符串

flags: 标志位,用于控制正则表达式的匹配方式,同re.match

示例:

输出:

3、re.findall()

功能说明:在整个字符串里进行匹配,如果匹配失败就返回一个空列表,如果匹配成功就返回一个所有匹配结果的列表。

findall(pattern, string, flags=0)

参数说明:

patter: 匹配的正则表达式

string: 要匹配的字符串

flags: 标志位,用于控制正则表达式的匹配方式,同re.match

示例:

输出:

4、re.sub()、re.subn()

功能说明:在整个字符串里进行正则表达式匹配,将匹配成功的字符串进行替换,可以指定替换的次数,如果不指定,则替换所有的匹配字符串。

两者区别:sub返回被替换后的字符串,subn返回一个元组,元组的第一个元素是被替换的字符串,第二个元素是被替换的次数。

sub(pattern, repl, string, count=0, flags=0)

subn(pattern, repl, string, count=0, flags=0)

参数说明:

patter: 匹配的正则表达式

repl: 用来替换的字符串

string: 要被查找替换的原始字符串

count: 最大替换次数

flags: 标志位,用于控制正则表达式的匹配方式,同re.match

示例:

输出:

5、re.spilt()

功能说明:按照能够匹配的子串,将字符串进行分割后返回列表。

split(self, *args, **kwargs)

示例:

输出:

re模块还有一些其他的函数功能,就不一一介绍了,如果需要了解更多,可以参考官方文档。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181024A1RO0I00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券