专栏首页小怪聊职场爬虫课程(五)|十分钟学会使用正则表达式

爬虫课程(五)|十分钟学会使用正则表达式

一、为什么必须要有正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

在我们使用xpath和css选择器时只能取到html标签下的一段字符串,比如我们要取知乎回答下的时间,有的是“发布于 13:57”,有的是“发布于 昨天 13:50”,还有的是“发布于 2016-03-17”。如果我们不用正则表达式,而用其他替代方案,比如多个if else,或者replace,处理起来是非常繁琐的。

本文章将介绍几种非常常用的特殊字符,学会了使用这些字符将会解决98%爬虫需要做字符串提取的工作。

二、正则表达式最常见的字符

1)特殊字符:就是一些有特殊含义的字符。 $ () * + . [ ? \ ^ { |

2)限定符:用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。* + ? {n} {n,} {n,m}

3)定位符:用来描述字符串或单词的边界。^ $

4)其他字符:\w \W \s \S \d

我先不介绍这些字符有什么含义,我们直接进入python示例

三、正则表达式的简单应用及python示例

3.1、介绍^ . * $的用法

1)^ 匹配输入字符串开始的位置。

2). 匹配除换行符 \n 之外的任何单字符。

3)* 匹配前面的子表达式零次或多次。

4)$ 匹配输入字符串的结尾位置。

^ . * $的用法

3.2、介绍() ?用法

1)()标记一个子表达式的开始和结束位置。

2)?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。

() ?用法

3.3、介绍+ {n} {n,} {n,m}用法

1)+匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。

2){n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。

3){n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

4){n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

+ {n} {n,} {n,m}用法

3.4、介绍|[123] [0-9] [^1]用法

1)|指明两项之间的一个选择。

2)[123] 只要是123中的其中一个即可。

3)[0-9] 只要是0-9中的任意数字即可。

4)[^1] 非,只要不是1即可。

|[123] [0-9] [^1]

3.5、介绍\s \S \w \W \d用法

1)\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

2)\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

3)\w 等价于[A-Za-z0-9_]。

4)\W 与\w相反。

5)\d 所有数字,等价于[0-9]。

\s \S \w \W \d

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Java中实现多线程的3种方法介绍和比较

    黄小怪
  • JVM第一篇:一个Java内存泄漏的排查案例

    黄小怪
  • JVM第二篇:基于Actuator生成HeapDump及基于MAT分析HeapDump

    参考我前面的文章Java|使用Spring Boot Actuator监控应用 访问http://localhost:1001/monitor/actuato...

    黄小怪
  • python爬虫scrapy之rules的基本使用

    Link Extractors 是那些目的仅仅是从网页(scrapy.http.Response 对象)中抽取最终将会被follow链接的对象。

    菲宇
  • PHP常用正则表达式大全

      匹配数字   "^\d+$" //非负整数(正整数 + 0)   "^[0-9]*[1-9][0-9]*$" //正整数   "^((-\d+)|(0+))...

    思梦php
  • grep中使用"\d"匹配数字不成功的原因

    首先正则表达式分为三类(man grep可以看到,分别是basic RegExs,extended RegExs,perl RegExs)

    程序手艺人
  • 优秀攻城师必知的正则表达式语法

    最近公司的一个项目,大量用到了正则来处理文本,以前对正则使用仅限于小打小闹,用的也是一知半解,经过本次的深入使用,发现正则表达式真的是每一位开发者都需要具备的一...

    我是攻城师
  • php正则表达式使用方法整理集合

    7、正浮点数:^((0-9)+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9...

    砸漏
  • 正则表达式-基本概念与简单元字符

    首先,正则表达式是一个字符串组成的模式,用来匹配一个字符串,一般用在检索,替换里,也经常用来校验一些字符模式,检验是否匹配一个给定的规则。

    Dylan Liu
  • JavaScript表单验证和正则表达式

    JavaScript表单验证 ? 分为四类:   1.非空验证     常用于用户名等   2.相等验证     常用于验证两次输入的密码   3.范围验证  ...

    二十三年蝉

扫码关注云+社区

领取腾讯云代金券