前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >常用的正则表达式【python爬虫】

常用的正则表达式【python爬虫】

作者头像
来杯Sherry
发布2023-05-25 11:13:33
2500
发布2023-05-25 11:13:33
举报
文章被收录于专栏:第一专栏第一专栏

SQL正则表达式

mysql查询中常见的四种

‘^……’

‘…… $’

1|……$’

‘……’

https://www.runoob.com/mysql/mysql-regexp.html

Python正则表达式


单字符: . : 除了换行以外所有字符 [] : [a-z] a-z任意一个匹配, [ae] 匹配a或e \d :[0-9] \D :非数字 \w :字母/数字/下划线 /中文 匹配 \W :非 \w \s :所有空白字符 \S :所有非空白字符


数量修饰: * : 数量 >=0 + : >=1 ? : 可有可无,1 or 0 {m} : ==m {m,} : >=m {m,n} : m-n


分组: ():整体 (ab){3}:ababab ab{3}:匹配 abbb 组模式:<p><div></div></p> --> </2></1>


边界: \b \B $ :以什么结尾 ^ :以什么开头 a | b : 满足啊或b


ret = pattern.search() 查找第一个符合的 ret = pattern.findall() 查全部


取消贪婪模式:(贪婪:匹配合适就结束) .*? :加? 从合适匹配到不合适再结束 .+?


不分大小写、单行、多行匹配 re.complie(r’’,re.I) re.complie(r’.*’,re.S) re.complie(r’\w’,re.S) 单行模式识别回车,适用于要匹配的标签不在一行 re.complie(r’’,re.M)


(.*?) 和 .*? 的区别, (.*?) :希望找到并显示的内容,第二个希望匹配并忽略

情景一
代码语言:javascript
复制
<ul class="a">
	<li><p></p></li>
</ul>
<ul class="a">
	<li><p></p></li>
</ul>
......
<ul class="b">
	<li><p></p></li>
</ul>

希望匹配所有 ul为a的 p标签

代码语言:javascript
复制
pattern = re.compile(r'<ul class="a">.*?<p>(.*?)</p>.*?</ul>', re.S)
情景二
代码语言:javascript
复制
<ul class="a">
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
	<li><p></p></li>
</ul>

希望匹配所有 ul为a的 p标签

代码语言:javascript
复制
pattern = re.compile(r'<ul class="a">(.*?)</ul>', re.S)

https://www.runoob.com/python/python-reg-expressions.html


  1. …… ↩︎
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • SQL正则表达式
  • Python正则表达式
    • 情景一
      • 情景二
      相关产品与服务
      云数据库 MySQL
      腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档