首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

学习爬虫的第49天,正则表达式被我踩在脚下

昨天学了 bs4 后,基本上就没明白啥意思,情绪一度陷入低谷。

好在有朋友在评论区告诉我:不用太在乎 bs4 了,正则表达式学好就行了,效率不是 bs4 可以比的。

一下子点燃了我前进的道路、又让我变得元气满满。

巧合的是,今天老师就开始讲正则表达式了,这就是命中注定吧。

正则表达式 描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

网上一搜,常用的正则表达式有60多个,关键是一个个都写的跟天书一样。

好在老师说作为初学者,不要求全会,自己能写一两个即可,关键是能看懂别人写的。

所以,就必须要能掌握正则表达式的常用操作符。

在 Python 中,主要使用 Re库解决正则表达式匹配问题的。

上面的几个函数中,必须要熟练掌握的就是 match 、 findall 、sub。

此外,正则表达式可以包含一些可选标志修饰符来控制匹配的模式。

概念说了半天,不上手实操一下,都是扯淡。

使用 compile() 与 findall(), search(), match()等搭配使用。可以返回一个匹配对象。

这里返回的匹配结果是,span=(3,5),考虑到左闭右开特性,也就是说,它在第3、4位置找到了AA。

也就是说,匹配的结果是两个:一是匹配不匹配;二是在哪个位置匹配。

search 方法进行比对查找,只查找出现的第一个。

也可以进行简写,前面的字符串是规则(正则表达式),后面是被校验的对象。

sub()的使用方法可以参考下面的代码。

表示:在第三个字符串中查找,将找到的 a 用 A 替换。

这个功能还是蛮强大的,这不就是 word 里面的替换功能嘛。

建议:在正则表达式中,被比较的字符串前面加上 r ,不用担心 转义字符 的问题。

总体感觉这部分不算难,真正在未来操作过程中,碰到想不起来的,直接查找就好了。

正则表达式,就是一个熟能生巧的工具罢了。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200414A08FB100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券