Python 爬取猫眼千页评论,分析《狄仁杰之四大天王》是否值得一看

作为徐老怪的忠实影迷,《狄仁杰之四大天王》肯定是要去看的。看豆瓣评分和前两部相差不多,所以本文就简单分析了一下《狄仁杰》的影评。

数据爬取

本来笔者是打算爬取豆瓣的全部影评,但是很不幸,数据爬取到一半,我的账号被封了(建议大家改为动态IP进行爬取),于是转战于猫眼。猫眼的短评不能直接通过源码获得,需要寻找它的数据接口,如下:

其中341516属于电影的专属ID,offset代表页数且只展示1000页的内容,同时仅限于当日的评论。此文只为做影评分析演示,所以笔者只爬取了今日的评论,去重后仅为几百条,建议大家多爬取今天的数据,再做分析。

代码如下:

爬取数据如下:

数据分析

直观来看,有用的数据仅为城市、评分和评论。我们分别采用热力图、柱状图和云图来进行可视化分析。

观影者分布热力图

根据观影者的城市,我们画出了观影者分布情况:

可明显发现东部地区,尤其是北京、上海、广东,成都等城市最为突出,当然,这和经济发展有着重要的联系,也符合我们的常规想法。

代码如下:

评分柱状图

相较于豆瓣的评分机制,猫眼的评分机制允许给出半星的评价,于是通过简单的柱状图来大概看一下评分情况。

大部分的评分都高于3分,给出满分的最多,只有少数的观影者给出了低分,看来徐克这部电影的口碑还行,至少在及格线以上。那大家观完影,最直观的感受是什么呢,下面就通过短评分析来看看。

代码如下:

短评词云图

为了分析短评,我们采用jieba对短评进行了分词,然后做出词云图。

背景图:

词云图:

和前两部一样,最突出的是特效、剧情和徐老怪,看来这部电影的特效做得很棒,徐老怪的个人风格也展示得淋漓尽致。同时,也能发现好看、不错、推荐也是观影者的主要感受,看来还是蛮值得去看的。

代码如下:

结语

本文只是做了简单的数据爬取和分析,主要是用以学习如何进行分词,词云和热力图,建议大家可以基于此进行练习。

声明:本文为作者投稿,版权归对方所有。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180807A1EW4R00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券