前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬虫之豆瓣音乐及糗事百科

Python爬虫之豆瓣音乐及糗事百科

作者头像
Python中文社区
发布2018-01-31 17:38:38
8460
发布2018-01-31 17:38:38
举报
文章被收录于专栏:Python中文社区Python中文社区

專 欄

罗罗攀,Python中文社区专栏作者

专栏地址:

http://www.jianshu.com/u/9104ebf5e177

一、豆瓣音乐top250

代码

1、加了请求头(本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因); 2、这次是进入信息页爬的数据(上次爬电影没采用这种方法,缺少了部分数据); 3、数据的预处理用了很多if函数,厉害的兄弟有什么优化的方法。

数据分析

1、部分数据可以见上图; 2、中国音乐作者还是很多的,哈哈; 3、随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又下滑(经典就是经典,无法吐槽现在的音乐); 4、风格大家可以看出流行,摇滚,民谣占了一大半; 5、最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

二、糗事百科

代码

这次除了爬取老师的作业布置的字段外,还爬取了用户的一些信息,如图所示。

之前的作业亮同学已经详细讲解了,我今天就贴下我的代码:

数据存储到mongodb数据库中,如图:

数据预处理

首先,导入库和数据:

字段类型转化 由于有些字段没有,填充了“不详”或None,所以age,comment字段都是文本类型的,需转化为整形,但有None这些东西没法转,需要把这些内容替换为“0”才能转,以下就是转化代码。(怎么就管不住我这双手呢,填空值可以直接转化,而且填充缺失值也很简单)

填补缺失值 我把一些值都替换成了0,我们通过列的平均值进行填充即可。

玩糗事的人年龄 通过describe看下:

代码语言:javascript
复制
    data.describe()

可以看出平均年龄为34,话说不是我们才是段子手的主力军么,我回头看了下数据,有很多人填写的年龄为100以上,为虚假信息,由于数据量少,拉高了平均值,段子手是属于我们的!!!!(我不会告诉你我才17)

谁是段子手 通过排序,找出前十评论和前十好笑的段子的用户,看看谁才是真正的段子手。

段子手性别比例

看下段子手男女比例:

男生比较多,哈哈,污污的女生最可爱!!!

段子词云

词云制作讲过很多次了,放上代码和图。

本文为作者原创作品,未经作者授权同意禁止转载

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python中文社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档