爬虫课程(五)|十分钟学会使用正则表达式

一、为什么必须要有正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

在我们使用xpath和css选择器时只能取到html标签下的一段字符串,比如我们要取知乎回答下的时间,有的是“发布于 13:57”,有的是“发布于 昨天 13:50”,还有的是“发布于 2016-03-17”。如果我们不用正则表达式,而用其他替代方案,比如多个if else,或者replace,处理起来是非常繁琐的。

本文章将介绍几种非常常用的特殊字符,学会了使用这些字符将会解决98%爬虫需要做字符串提取的工作。

二、正则表达式最常见的字符

1)特殊字符:就是一些有特殊含义的字符。 $ () * + . [ ? \ ^ { |

2)限定符:用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。* + ? {n} {n,} {n,m}

3)定位符:用来描述字符串或单词的边界。^ $

4)其他字符:\w \W \s \S \d

我先不介绍这些字符有什么含义,我们直接进入python示例

三、正则表达式的简单应用及python示例

3.1、介绍^ . * $的用法

1)^ 匹配输入字符串开始的位置。

2). 匹配除换行符 \n 之外的任何单字符。

3)* 匹配前面的子表达式零次或多次。

4)$ 匹配输入字符串的结尾位置。

^ . * $的用法

3.2、介绍() ?用法

1)()标记一个子表达式的开始和结束位置。

2)?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。

() ?用法

3.3、介绍+ {n} {n,} {n,m}用法

1)+匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。

2){n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。

3){n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

4){n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

+ {n} {n,} {n,m}用法

3.4、介绍|[123] [0-9] [^1]用法

1)|指明两项之间的一个选择。

2)[123] 只要是123中的其中一个即可。

3)[0-9] 只要是0-9中的任意数字即可。

4)[^1] 非,只要不是1即可。

|[123] [0-9] [^1]

3.5、介绍\s \S \w \W \d用法

1)\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

2)\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

3)\w 等价于[A-Za-z0-9_]。

4)\W 与\w相反。

5)\d 所有数字,等价于[0-9]。

\s \S \w \W \d

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏王磊的博客

javascript中Array的操作

concat(组合数组) join(数组转字符串) pop(删除最后一个元素) shift(删除第一个元素) push(在数组尾部添加新元素) unshift(...

2798
来自专栏linux驱动个人学习

typeof关键字的作用

一、typeof详解: 前言:     typeof关键字是C语言中的一个新扩展,这个特性在linux内核中应用非常广泛。(其实这和C++的auto关键字和可以...

3355
来自专栏猿人谷

C++ STL疑惑知识点

 1.remove的问题 ? ? 参考:http://zhidao.baidu.com/question/458494170.html 2.用find搜索数组中...

2389
来自专栏python百例

92-re模块基础用法

1342
来自专栏鸿的学习笔记

python的函数

在python里的lambda表达式只能使用纯表达式,除非像pyspark那样重载了。

1222
来自专栏mathor

枚举+优化(7)——前缀和1

1717
来自专栏我是业余自学C/C++的

redis_3.0.7_sds.c_sdscatlen()

2284
来自专栏Golang语言社区

golang的{}初始化

之前说到Golang中某些类型可以赋值nil, 某些类型不能赋值nil. 不能赋值nil都是initialized value不为nil的类型, 例如: boo...

3407
来自专栏xingoo, 一个梦想做发明家的程序员

虚函数

虚函数 代码如下定义: // test1107.cpp : 定义控制台应用程序的入口点。 // #include "stdafx.h" #include <i...

2245
来自专栏Vamei实验室

Python基础04 运算

Python的运算符和其他语言类似 (我们暂时只了解这些运算符的基本用法,方便我们展开后面的内容,高级应用暂时不介绍) 数学运算 >>>print 1+9   ...

2108

扫码关注云+社区

领取腾讯云代金券