Python数据分析之糗事百科

今天分享的内容为:糗事百科数据获取已经数据分析。

代码

这次除了一级页面外,还爬取了二级页面,获取用户的一些信息,如图所示。

我今天就贴下我的代码:

数据存储到mongodb数据库中,如图:

数据预处理

首先,导入库和数据:

字段类型转化 由于有些字段没有,填充了“不详”或None,所以age,comment字段都是文本类型的,需转化为整形,但有None这些东西没法转,需要把这些内容替换为“0”才能转,以下就是转化代码。(怎么就管不住我这双手呢,填空值可以直接转化,而且填充缺失值也很简单)

填补缺失值 我把一些值都替换成了0,我们通过列的平均值进行填充即可。

玩糗事的人年龄

通过describe看下:

可以看出平均年龄为34,话说不是我们才是段子手的主力军么,我回头看了下数据,有很多人填写的年龄为100以上,为虚假信息,由于数据量少,拉高了平均值,段子手是属于我们的!!!!(我不会告诉你我才17)

谁是段子手

通过排序,找出前十评论和前十好笑的段子的用户,看看谁才是真正的段子手。

段子手性别比例

看下段子手男女比例:

男生比较多,哈哈,污污的女生最可爱!!!

段子词云

词云制作讲过很多次了,放上代码和图。

段子嘛,无非是男生聊女生,女生聊男生。

总结

数据分析来一波,还有用户的详细信息没分析,我们下次分析咯!!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181115G17C7E00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券