首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如果你还没学正则表达式

科技简讯

微信公众平台于2月10日发布公告称,即日起将正式调整微信公众号的注册数量,每个人的注册数量上限由原来的 5 个调整为 2 个,而组织类的上限则从原来的 50 个调整为 5 个。不过他们也同时规定,如果确实有多个账号需求的,相应个人和组织可以发起申请流程,经过微信公众平台初审,并报互联网信息内容主管部门审批同意后,可以适当放宽注册数量限制。

作者简介

走在Data mining 路上的一名探索者;

某著名男女失衡断水断电大学汪;

Corozon共勉;

本篇文章学习Python的正则表达式;

正文

正则表达式(re-Regular expression operations)模块在线文档:https://docs.python.org/3/library/re.html

我对很多技术都是本着用着先的态度,有问题再去查资料,不用说万事俱备。

我希望这篇能带来“用着先”的作用。

理解正则表达式:

所谓正则表达式,就是对字符串操作的一种逻辑公式。正则也可以理解为“如果正确则如何...”。它用事先定义好的字符,组合成符合你目前工作需求的特定规则字符串。然后你就可以用这个规则字符串就行对文本的过滤,注意这里的过滤可以是提取需要的,也可以是除去不需要的。

大致流程:

观察目标文本,定下工作目的。

根据定义好的特定字符(下表),对照文本写出正则表达式

对文本进行筛选(一系列方法)

主要方法:

小应用:

在爬取nba13年赛季球队排行时,出现了表格数据在源代码中是注释的情况,没办法运用bs4进行标签层的爬取。所以只能先用正则表达式将注释爬出来。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180218G08BWJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券