用python解析上万条评论,揭秘《邪不压正》到底在讲什么

《邪不压正》是姜文的民国三部曲的最后一部,前两部是《让子弹飞》,《一步之遥》。很多人说,姜文的电影看不懂,上映当日豆瓣评分8.2,现在评分7.1。今天就用python来分析一下到底讲了什么。

用python来分析大致分为三部分1、数据获取。2、数据处理。3、展示数据。

数据获取

在Python爬虫中,一般也是分三步来获取数据

解析网页

我们从猫眼上万条评论中来分析数据,首先打开目标网页

http://maoyan.com/films/248566

我们发现就只有几条数据,在观察也没有发现别的评论。

找不到评论,在爬虫中还可以通过模拟手机APP的方式获取数据。

分析发现offset是加载数量,通过构造参数来获取评论数据显然不能实现。

再分析url:http://m.maoyan.com/mmdb/comments/movie/248566.json?_v_=yes&offset=15&startTime=2018-07-22%2016%3A23%3A43

尝试构造url的方法来解析:

通过这种方式来解释数据:

发现成功拿到数据,开心。

解析数据

我们通过构造一个生成器函数的方式解析数据。

这一部分建议读者先把上一步解析网页得到的数据打印出来,一步一步分析,遇到bug尽量自己调试,打印结果,分析。

保存数据

数据保存完成,接下来就是处理数据

数据处理

得到的文本文件,我们发现有好多重复的数据。

这个时候就要清洗一下数据了

这段代码主要的功能就是去重。代码很简单,仔细看,你会明白的。

数据可视化

这里用pyecharts,将评分和评论进行图表展示。pyecharts是一个用于生成图表的库,使用起来方便,可视化的效果非常好。

想要了解的可以查看:http://pyecharts.org/

经过两天的数据获取,通过获取用户评论制成词云,看到网友对这部影片的态度。排名靠前的有「姜文好看」「看不懂剧情」「彭于晏」等。网友对这部影片还是很不错的。相比电影本身,还有好多网友是冲着国民老公彭于晏。话说肌肉真是煞羡旁人啊。

代码如下:

可以看到,五星评论居多。一星评论也不少,可能没看懂姜文的黑色幽默吧。

代码如下:

到这里就分析完了,姜文的电影生猛,超现实。多看几遍,希望你在姜文的电影中能收获些东西。

总结

这篇文章还有一个粉丝分布的图表,由于代码始终不能完善,在网上找了好多方法没有解决,还要多加学习。

在学习中时常发现乐趣才能使学习不那么枯燥。

一定要多写,才能融会贯通。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180723G06XPF00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券