简易数据分析 17 | Web Scraper 高级用法——利用正则表达式筛选文本信息

卤代烃

发布于 2020-07-08 10:52:54

1.4K0

发布于 2020-07-08 10:52:54

文章被收录于专栏：超级码力超级码力

学习了这么多课，我想大家已经发现了，web scraper 主要是用来爬取文本信息的。

在爬取的过程中，我们经常会遇到一个问题：网页上的数据比较脏，我们只需要里面的一部分信息。比如说要抓取电影的评价人数，网页中抓到的原始数据是 1926853人评价，但是我们期望只抓取数字，把 人评价 这三个汉字丢掉。

这种类似的操作在 Excel 可以利用公式等工具处理，其实在 web scraper 里，也有一个利器，那就是正则表达式。

正则表达式是一个非常强大工具，它主要是用来处理文本数据的，常用来匹配、提取和替换文本，在计算机程序中有非常广泛的应用。

web scraper 中也内置了正则表达式工具，但只提供了提取的功能。虽然功能有所残缺，对于 web scraper 使用者来说完全够用了，毕竟 web scraper 的定位就是不会写代码的小白，我们只需要学习最基础的知识就可以了。

我们先用 web scraper 初步尝试一下正则表达式。这里还是用豆瓣电影做例子，我们先选择电影的评价人数，预览图是这个样子的：

Text 选择器有个 Regex 的输入框，这个就是输入正则表达式的地方。我们输入 [0-9]，然后再点击预览，是这个样子的：

这时候你应该就明白了， [0-9] 就是匹配一个数字的意思。如果我们要匹配多个数字呢？很简单，后面再加个「 + 」号就好。把 [0-9]+ 输入进去，预览一下：

很明显，所有的数字都匹配出来了。

上面讲了用 [0-9] 匹配数字，我们想一下日常用到的文本信息，不外乎这几种：数字、小写字母、大写字母，汉字，特殊字符（比如说各种计量单位、下划线回车等符号）。

正则表达式里都有匹配这些字符的方法，下面我用一个表格列举出来：

上面列举了一些常用的，其实这些规则可以组合起来，比如说 [a-z] 和 [A-Z] 组合起来，就是 [a-zA-Z]，表示匹配所有的字母。这些组合也有一些简写，我这里也列举一些：

字符簇	匹配
\w	匹配字母、数字、下划线。等价于 [A-Za-z0-9_]
\W	匹配非字母、数字、下划线
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]
\S	匹配任何非空白字符

基本上掌握以上内容就能匹配绝大多数字符了，这里我推荐一个正则练习网站：

http://c.runoob.com/front-end/854

按照下图所示就可以练习正则匹配了：

结合前面的例子，我们知道这些规则只能匹配一个字符，如何匹配多个字符？这就要学习正则表达式限定符。

我们已经知道在 [0-9] 后面加个加号「+」就可以匹配多个字符了，其实还有很多限定符，详情可见下图表格：

限定符	匹配解释	原始数据	例子
{n}	n 是一个非负整数。匹配确定的 n 次	100001	10{2}，表示 0 这个字符匹配 2 次，匹配结果是 100
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次	100001	10{2,3}，表示 0 这个字符最少匹配 2 次且最多匹配 3 次，匹配结果是 1000
{n,}	n 是一个非负整数。至少匹配 n 次	100001	10{2,}，表示 0 这个字符至少匹配 2 次，匹配结果是 10000
+	匹配前面的子表达式一次或多次，等价于 {1,}	z，zo，zoo	zo+ 能匹配「zo」以及「zoo」，但不能匹配「z」
*	匹配前面的子表达式零次或多次，等价于 {0,}	z，zo，zoo	zo* 能匹配「z」、「zo」以及「zoo」
?	匹配前面的子表达式零次或一次，等价于 {0,1}	z，zo，zoo	zo? 能匹配「z」以及「zo」，但不能匹配「zoo」