学习
实践
活动
专区
工具
TVP
写文章

Python爬虫0基础也可以爬取猫眼电影TOP榜

今天我要利用requests库和正则表达式抓取猫眼电影Top100榜单。

运行平台: Windows

Python版本: Python3.6

IDE: Sublime Text

其他工具:Chrome浏览器

里面有各种学习资料和我整理的一份2018最新0基础入门视频,都无偿提供给大家,还有高清大图学习路线和开发工具包满足大家,希望搭建一个好的学习环境,每天里面更新最新Python市场行情。

1. 抓取单页内容

浏览器打开猫眼电影首页,点击“榜单”,然后再点击"TOP100榜",就能看到想要的了。

接下来通过代码来获取网页的HTML代码。

运行结果如下:

2. 正则表达式提取有用信息

在上图中,已经标注出我们将要提取的内容,下面用代码实现:

运行结果如下:

3. 保存信息

获取电影信息之后,要保存起来留用。要保存的有文本信息和电影封面。

下面为保存结果:

4.下载TOP100所有电影信息

通过点击标签页发现只是URL变化了:

修改main函数以动态改变URL:

到此我们已经将TOP100的电影信息和封面全部得到了。

5.多线程抓取

此次抓取的数据不算多,但是为了学习,使用多进程进行抓取,以应对以后大量的数据抓取。

下面为普通抓取和多进程抓取的时间对比:

以下为完整代码:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180111A0102A00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券