前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用Python分析国庆最火的电影,20万数据分析

用Python分析国庆最火的电影,20万数据分析

作者头像
龙哥
发布2019-10-10 12:12:25
5500
发布2019-10-10 12:12:25
举报
文章被收录于专栏:Python绿色通道Python绿色通道

国庆小长假我都没有更新,让大家都好好休息一下,也为2019的尾声蓄力,最近计划出一个爬虫系列的文章, 让每个人都能学会爬虫,敬请期待.

现在开始正文.

今年的国庆假期,电影院里最受大家瞩目的电影想必就是《我和我的祖国》了吧,这部电影无论从题材还是参演阵容来说,都非常值得大家去观看,这部电影的评价也非常的好,因此,小编决定来分析一波,看看大家对于这部电影的评价如何。

首先,小编爬取了从该部电影上映,到10月4号,一共五天的评论。小编一共爬取到了20万+的数据量,尽管采用多线程,但是依旧花费了很长的时间。爬取的数据如下所示。

猫眼的爬取主要是通过启始和结束的时间段构建一个url,即可爬取,然后我们同时爬取多个时间段的点评信息,这里我们用多线程爬取:

主要是抓取下面几个维度从城市,影评内容,性别,昵称,用户等级,点评分,时间和评论!

得到数据后,接下来便是对于数据的分析,首先我们来看一下大家最为关心的,评分的分布情况,如下图所示。

可以看出,大家对于这部电影的评分几乎全都是在5分,满分的评价。而且评分在3分以下的非常少。

接下来我们对于好评和差评的人数已经评分的男女性别进行以下分析。

如下图所示。

上图中,由于猫眼上针对于某些用户,没有给出好评和差评的数据,所以我们爬取的数据当中只是包含了绝大部分的观影人群。而在性别的分布中,可以看出,我们忽略“其他”这一比例。男女观影人群的比例中女性观众要多于男性观众

下面我们来观察一下,观影者的城市分布情况,看一下,哪些城市的观影人数较多。

由上图可以看出,左下角的图标显示的是颜色红,观影的人数越多,从上图可以看出,北上广深这几个城市的观影人数是最多的,而从全国的观影分布来看,观影人数较多的城市绝大多数集中于东部的沿海城市一带。而内陆中观影人数较多的城市则大多分布于省会城市。

评论人数随着时间的变化如下图所示。

可以看出,上映当天,由于还是上班日,因此观影人数较十月1日和十月2日假期来说偏少,而随着假期的继续,观影人数呈现缓慢的下滑趋势。

接下来我们针对于大家的评论做一个词云的展示,如下图所示。

这里小编依旧采用jieba来进行分词,但是分词完成后 ,小编采取了数据处理,将数字少于2个的字给剔除,并且采用pyecharts库自带的wordcloud类进行词云的制作,从上图可以看出,大家对于祖国的由衷祝福,祝愿我们伟大的祖国繁荣昌盛。

最后,小编想为大家展示的是,那些极少数的差评的评论,如下图所示。

由图可以看出,差评的观影者只是针对于电影本身,或者是对于影院的一些服务不满而给出的差评,但是他们对于祖国,还是充满着浓浓的爱意。


以上就是小编为大家带来的《我和我的祖国》分析,通过分析,我们发现,大家对于这部剧是抱着非常高的爱国情怀去观看的,虽然演员有小鲜肉也有老戏骨,但是在国家面前,其他的都是微不足道的。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python绿色通道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档