Python爬虫之豆瓣音乐及糗事百科

專 欄

罗罗攀,Python中文社区专栏作者

专栏地址:

http://www.jianshu.com/u/9104ebf5e177

一、豆瓣音乐top250

代码

1、加了请求头(本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因); 2、这次是进入信息页爬的数据(上次爬电影没采用这种方法,缺少了部分数据); 3、数据的预处理用了很多if函数,厉害的兄弟有什么优化的方法。

数据分析

1、部分数据可以见上图; 2、中国音乐作者还是很多的,哈哈; 3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又下滑(经典就是经典,无法吐槽现在的音乐); 4、风格大家可以看出流行,摇滚,民谣占了一大半; 5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

二、糗事百科

代码

这次除了爬取老师的作业布置的字段外,还爬取了用户的一些信息,如图所示。

之前的作业亮同学已经详细讲解了,我今天就贴下我的代码:

数据存储到mongodb数据库中,如图:

数据预处理

首先,导入库和数据:

字段类型转化 由于有些字段没有,填充了“不详”或None,所以age,comment字段都是文本类型的,需转化为整形,但有None这些东西没法转,需要把这些内容替换为“0”才能转,以下就是转化代码。(怎么就管不住我这双手呢,填空值可以直接转化,而且填充缺失值也很简单)

填补缺失值 我把一些值都替换成了0,我们通过列的平均值进行填充即可。

玩糗事的人年龄 通过describe看下:

    data.describe()

可以看出平均年龄为34,话说不是我们才是段子手的主力军么,我回头看了下数据,有很多人填写的年龄为100以上,为虚假信息,由于数据量少,拉高了平均值,段子手是属于我们的!!!!(我不会告诉你我才17)

谁是段子手 通过排序,找出前十评论和前十好笑的段子的用户,看看谁才是真正的段子手。

段子手性别比例

看下段子手男女比例:

男生比较多,哈哈,污污的女生最可爱!!!

段子词云

词云制作讲过很多次了,放上代码和图。

本文为作者原创作品,未经作者授权同意禁止转载

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2017-07-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

老司机养成:教神经网络变身《马里奥赛车》高手 | 论文+代码

问耕 编译整理 量子位 出品 | 公众号 QbitAI ? 神经网络持续在游戏界立功,这次拿下的是经典游戏:《马里奥赛车64》,而且只需要很小的计算力就能完成。...

3576
来自专栏AI科技大本营的专栏

AI 技术讲座精选:数学不好,也可以学习人工智能(三)

【AI100 导读】学习人工智能到底要不要学好数学,这俨然已经成了一个争议话题了?之前 AI100 刊发了本系列的前两篇文章,也发表了作者子白的《放弃幻想,搞 ...

45317
来自专栏PPV课数据科学社区

近期GitHub上最热门的开源项目(附链接)

来源:开源最前线 2 月份 GitHub 上最热门的开源项目又出炉了,又有哪些新的项目挤进热门榜单了呢,一起来看看。 ……………………………… 1、nocode...

3689
来自专栏云加头条

智能云上手指南:如何使用腾讯云开放的图片鉴黄能力?

今天,腾讯云发布2017战略新品——智能云,对于普通开发者而言,现在可以通过腾讯云开发者实验室0门槛体验优图鉴黄等AI能力。

8581
来自专栏影子

关于图文识别功能相关技术的大致实现

1804
来自专栏大数据文摘

数学烂也要学AI | 带你造一个经济试用版AI终极必杀器

3729
来自专栏数据派THU

手把手教你Tableau高级数据分析功能(附数据集)

5806
来自专栏影子

关于图文识别功能相关技术的大致实现

37511
来自专栏影子

关于图文识别功能相关技术的大致实现

转载请注明源地址:http://www.cnblogs.com/funnyzpc/p/8908906.html

2001
来自专栏FreeBuf

如何科学合理薅FreeBuf活动“羊毛”

过年前网站推出一个叫“网藤杯智能安全机器人养成计划”的活动,刚开始以为是一个养蛙类型的活动,研究过后发现,这是一个上传数据拿奖品的活动,看着礼品还挺诱人的,作为...

3615

扫码关注云+社区

领取腾讯云代金券