前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫之三:抓取猫眼电影TOP100

Python爬虫之三:抓取猫眼电影TOP100

作者头像
王强
发布2018-08-09 17:26:01
3650
发布2018-08-09 17:26:01
举报
文章被收录于专栏:Python爬虫实战Python爬虫实战

今天我要利用requests库和正则表达式抓取猫眼电影Top100榜单。

运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具:Chrome浏览器

1. 抓取单页内容

浏览器打开猫眼电影首页,点击“榜单”,然后再点击"TOP100榜",就能看到想要的了。

接下来通过代码来获取网页的HTML代码。

运行结果如下:

2. 正则表达式提取有用信息

在上图中,已经标注出我们将要提取的内容,下面用代码实现:

运行结果如下:

3. 保存信息

获取电影信息之后,要保存起来留用。要保存的有文本信息和电影封面。

下面为保存结果:

4.下载TOP100所有电影信息

通过点击标签页发现只是URL变化了:

修改main函数以动态改变URL:

到此我们已经将TOP100的电影信息和封面全部得到了。

5.多线程抓取

此次抓取的数据不算多,但是为了学习,使用多进程进行抓取,以应对以后大量的数据抓取。

下面为普通抓取和多进程抓取的时间对比:


以下为完整代码:


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 C与Python实战 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 抓取单页内容
  • 2. 正则表达式提取有用信息
  • 3. 保存信息
  • 4.下载TOP100所有电影信息
  • 5.多线程抓取
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档