学习
实践
活动
工具
TVP
写文章

使用正则爬取猫眼Top100

CSDN博客:皮乾东

知乎:Htrying

微博:Htring的微博

GitHub:Htring

微信公众号:自然语言处理爱好者(ID:NLP_lover)

在本案例中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。

1

目标

提取猫眼电影Top100的电影名称、时间、评分、图片(下载),提取的站点URL为:http://maoyan.com/board/4,图片将保存到指定文件夹中。

2

准备工作

需要安装包(安装方式:在配好的环境中:即可)。

3

抓取分析

通过打开网页,找到网页之间的规律,如图:

可以发现页面的URL变成:http://maoyan.com/board/4?offset=10,比之前的URL多一个参数,offset=10,并且目前显示的结果是:11~20名的电影,由此可以找到其他排名电影页面的URL规律。

4

正则提取分析

在浏览器端的开发者模式下的Network(使用ctrl+shift+i打开)监听组件下查看源码,如图:

而每个电影的内容都在一个dd标签下:

根据这种状况,就可以去书写正则表达式:

需要说明的是:以上的每个括号表示的就是要获取的内容。

5

写入文件

在获取提取的结果后,我们将数据写到一个txt文档中,这里数据是使用json格式的内容书写的。

6

下载图片

涉及到语言、图片、视频的时候,我们可以使用:的形式书写。保存。

7

代码详解

8

运行结果

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180713G000BD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券