前言
作为徐老怪的忠实影迷,《狄仁杰之四大天王》肯定是要去看的,看豆瓣评分和前两部相差不多,但其实作者本人并不是很喜欢前两部,所以在犹豫要不要去看,于是简单去分析了一下《狄仁杰》的影评。
文章来源:经管人学数据分析( 作者:胡萝卜酱)
文章编辑:小雨
1数据爬取
本来小编是打算爬取豆瓣的全部影评,但是很不幸,数据爬取到一半,我的账号被封了(建议大家改为动态IP进行爬取,代码可用,可加QQ群获取),于是转战于猫眼。猫眼的短评不能直接通过源码获得,需要寻找他的数据接口,如下:
http://m.maoyan.com/mmdb/comments/movie/341516.json?_v_=yes&offset=1
其中341516属于电影的专属id,offset代表页数且只展示1000页的内容,同时仅限于当日的评论。此文只为做影评分析演示,所以小编只爬取了一天的评论,去重后仅为几百条,建议大家多爬取数据,再做分析。
爬取数据如下:
2数据分析
直观来看,有用的数据仅为城市,评分和评论。我们分别采用热力图,柱状图和云图来进行可视化分析。
2.1观影者分布热力图
根据观影者的城市,我们画出了观影者分布情况,如下图:
可明显发现东部地区,尤其是北京、上海、广东,成都等城市更为突出,当然,这和经济发展有着重要的联系,也符合我们的常规想法。
2.2评分柱状图
相较于豆瓣的评分机制,在猫眼的评分机制允许给出半星的评价,于是通过简单的柱状图来大概看一下评分情况。
大部分的评分都高于3分,尤其是给出满分的最多,只有少数的观影者给出了低分,看来徐克这部电影的口碑还行,至少在及格线以上。那大家观完影,最直观的感受是什么呢,接下来就通过短评分析来看看。
2.3短评词云图
为了分析短评,我们采用jieba对短评进行了分词,然后做出词云图。
采用背景图:
词云图:
和前两部一样,最突出的是特效,剧情和徐老怪,看来在这部电影里面,徐克肯定也将特效做的很棒,个人风格也肯定展示的淋漓尽致。同时,也能发现好看,不错,推荐也是观影者的主要感受,看来还是蛮值得去看的。
3结语
本文只是做了简单的数据爬取和分析,主要是用以学习如何进行分词,词云和热力图,建议大家可以基于此进行练习。