Python爬虫实战之豆瓣音乐、微打赏、阳光电影

一、豆瓣音乐

今天爬的是豆瓣音乐top250,比较简单,主要是练练手。

1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因;

2、这次是进入信息页爬的数据,上次爬电影没采用这种方法,缺少了部分数据;

3、数据的预处理用了很多if函数

数据分析

1、部分数据可以见上图

2、中国音乐作者还是很多的。

3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又积极下滑(经典就是经典,无法吐槽现在的音乐)

4、风格大家可以看出流行,摇滚,民谣占了一大半。

5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

代码片段

二、微打赏

网站分析

打开网站,翻页网页不变,看看是post的请求,很好办,直接把参数怼进去,这里只要切换page就能进行翻页。

json格式,这里post返回的是json数据,解析json数据就行,小技巧:看preview,解析起来嗖嗖哒。这里需要提取活动的名称,id和参与打赏的人数。这个后面详细页用的到。

详细页,依旧是post,依旧是json数据,这里的参数pro_id为之前的爬取的id,这一页20个信息,通过前面的参与打赏人数构造出有多少页,继续怼参数。

代码片段

三、阳光电影

爬虫分析

这里涉及跨页的爬取,需要理清爬虫的思路。首先打开网站,需爬取前11个分类的电影数据,经典影片格式不一样,爬虫时过滤掉了。

进入电影列表页后,正则爬取页数和电影的分类标签,以此构造分页url,然后爬取电影的名字和url。

最后在详细页爬取电影的下载地址,爬取结果如下:

代码片段

更多关于python语言的文章,请前往51Testing软件测试网。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180115A066PK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券