6万部豆瓣电影数据,如何做数据分析?

1 前言

豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评,极大地方便了人们的生活。

豆瓣电影是这样介绍自己的:“国内最权威电影评分和精彩影评,千万影迷的真实观影感受,为你的观影做决策。”而它也确实做到了这一点。

然而,前些日子,朋友圈又因一事沸腾了。《中国电影报》2016年12月27日发布题为“豆瓣电影评分,面临信用危机”的文章,随后人民日报客户端转发了该文,并将标题改为“豆瓣、猫眼电影评分面临信用危机,恶评伤害电影产业”。

基于此,特地把以前抓取的豆瓣电影数据拿出来分析一下,重点比较中国电影与其他国家和地区的电影的差异,以为豆瓣评分正名。

2 数据概况

这个数据只抓取到2016年上半年,总计 58127 部电影。包括id,电影名称,豆瓣评分,评分人数,上映时间,导演,主演,制片国家,影片简介等等信息。按照评分人数从高到低排序,数据库截图如下。

可以发现,评分人数最多的电影是周星驰的《美人鱼》,这是一部国产片,说明国人对国产电影还是非常关心的,并不像人民日报所抨击的那样——国人崇洋媚外,不关心国产电影。

相关爬虫

[Python]从豆瓣批量获取看过电影的用户列表,并应用kNN算法预测用户性别

[Python]豆瓣用户读书短评下载

另外,也可以发现,评分人数越多,电影得分基本在7.0以上,属于中等以上的好片。(《小时代》除外)

3 各国电影质量分析

豆瓣评分最低打一星,换算成分数就是2.0分,因此豆瓣电影理论上的最低分不是0分,而是2.0分。

由于变量有点多,饼状图不直观,所以各个国家评分的百分比使用了 Treemap 来展示。

以下,选取了拍片频数比较高的15个国家和地区的数据进行简单的展示和分析。

3.1 美国

总电影数:16773,评分柱状图如下:

可以发现,美国拍片最多,但是烂片也多,基本上满足标准的良性正态分布的关系。

3.2 中国大陆

总电影数:7516,评分柱状图如下:

可以发现,中国拍片也多,但是烂片更多,好片很少,在8分出现了明显的断层现象。

3.3 日本

总电影数:8598,评分柱状图如下:

可以发现,日本电影的正态分布左移,说明其电影质量很高。

3.4 英国

总电影数:3667,评分柱状图如下:

3.5 法国

总电影数:3210,评分柱状图如下:

3.6 韩国

总电影数:2126,评分柱状图如下:

3.7 德国

总电影数:1344,评分柱状图如下:

3.8 加拿大

总电影数:1054,评分柱状图如下:

3.9 意大利

总电影数:1073,评分柱状图如下:

3.10 印度

总电影数:548,评分柱状图如下:

3.11 西班牙

总电影数:669,评分柱状图如下:

3.12 泰国

总电影数:598,评分柱状图如下:

3.13 澳大利亚

总电影数:454,评分柱状图如下:

3.14 中国香港

总电影数:3327,评分柱状图如下:

3.15 中国台湾

总电影数:1036,评分柱状图如下:

4 中国电影质量分析

说了这么多,接下来主要看看中国电影和其他国家、地区电影的比较吧。(没有对比,就没有伤害。)

4.1 中美电影对比

首先是美国的,单单从频数折线图的趋势,看不出什么,除了数目上的差距,两者基本一样。那么换成频率折线图呢?

可以发现,中等片(6.5分以上),美国的蓝线始终是高于中国的绿线。然而,在中等质量以下的片子,蓝线始终是低于绿线的,差距不是一星半点……

4.2 中日电影对比

再看看电影质量很好的日本,单单从频数折线图就能发现两者的巨大差距了。

在频率折线图中,可以发现两线的交点较中美折线图而言,左移了0.5分左右,并且两线的绝对距离也比中美折线图要大得多。可见中日电影的差距又比中美差距大了一步……如果说中美电影的差距是“望其项背”,那么中日电影的差距就是“望尘莫及”了。

4.3 中国大陆与中国香港电影对比

那再来看看中国大陆和中国香港的电影差距比较吧。

乍一看,还挺好的嘛~

其实不然,只是大陆拍片比较多而造成的假象。当频数转成频率之后,一切又变得不一样了。

可以看出在生产好片的水平上,两者半斤八两的差,而在中等片上,中国香港明显比大陆要好的多;在烂片上,大陆一如既往始终遥遥领先……

5 年度电影质量分析

5.1 近百年来的电影数目

我把每十年的电影汇总了一下,由于21世纪10年代才过去一半,所以最后一个柱状图低一点是完全正常的。去掉它之后,发现满足指数级增长的规律(可以预见未来五年会诞生出2万部影片)。

5.2 近十年每年的电影数目

近十年电影产出始终维持在一个比较高的水平。

5.3 近十年9.5分以上的极品好片

近十年极品电影仿佛是随运气而出现,参差不齐,没有发现规律。

5.4 近十年8分以上的好片

近十年8分以上好片的产出也始终维持在一个比较高的水平。

5.5 近十年6分以下的烂片

但是,近十年6分以下烂片的产出居然出现逐年递增的趋势。

http://blog.ursb.me/2017/01/16/6

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2017-05-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

Hinton:人类就是机器,绝妙的机器

原文《Mr.Robot》刊载于 Toronto Life 作者 KATRINA ONSTAD 摄影 DANIEL EHRENWORTH 编译 夏乙 唐旭 量子位...

3559
来自专栏大数据文摘

我们文本分析了贾跃亭2017年全部公开信,发现他近期喜欢用“责任”“致歉”

1382
来自专栏大数据文摘

全球经济寒冬将至?且看顶级资本大鳄的大数据分析预测

1949
来自专栏CDA数据分析师

想太多,何不扎实的学?【统计学经典教材书单】

一、统计学基础部分 1、《统计学》 David Freedman等著,魏宗舒,施锡铨等译 中国统计出版社 据说是统计思想讲得最好的一本书,读了部分章节,受益...

29610
来自专栏BestSDK

哪些事情被大数据预测对了?

近日,印度初创公司 Genic.ai 开发的 MogIA 人工智能系统一时间火遍了社交媒体,也登上了各大媒体的标题栏,如果你还不知道那真的是 out 了。 怎么...

3106
来自专栏凌帅的阅读思考与实践

《股民的自我修养》读书笔记三:关于降维攻击

《三体》这部书里描述太阳系是这样毁灭的:外星人与地球人大战,使出了最终极的武器,先改变自己的维度,把自己从三维生物降低到二维生物,然后用一种二向箔...

511
来自专栏AI科技评论

业界 | 吃瓜,生气:arXiv论文里居然有广告?

AI科技评论按:昨天,有眼尖的网友吐槽 arXiv 上的论文里面居然有广告。目测是作者实验室的赞助商觉得仅仅在致谢部分提到名字已经不能满足他们的宣传欲望了……

1143
来自专栏AI科技评论

大会 | CVPR 2018,AI科技评论将亲临美国盐湖城现场!

CVPR 2018 即将开幕,届时AI 科技评论将带来专题报道,欢迎大家持续关注。

1365
来自专栏新智元

中国团队“霸屏”全球权威人脸识别竞赛,依图夺冠!

根据最新公布的全球权威人脸识别供应商测试 FRVT 结果,旷视、商汤和依图这三家视觉独角兽首次在公开场合同台竞技,最终由依图拿下第一。

992
来自专栏大数据挖掘DT机器学习

学习R语言对金融分析人士有何意义?

说一说我的背景,大学里c入门,转入R。在学校里弄了一阵生统与经济。现在搞云端理财的网站,后端是用R实现的,搞量化风险管理和资产组合的,其中要用到很多运算。R...

2986

扫码关注云+社区

领取腾讯云代金券