前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >6万部豆瓣电影数据,如何做数据分析?

6万部豆瓣电影数据,如何做数据分析?

作者头像
机器学习AI算法工程
发布2018-03-14 18:01:17
2K0
发布2018-03-14 18:01:17
举报
文章被收录于专栏:机器学习AI算法工程

1 前言

豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评,极大地方便了人们的生活。

豆瓣电影是这样介绍自己的:“国内最权威电影评分和精彩影评,千万影迷的真实观影感受,为你的观影做决策。”而它也确实做到了这一点。

然而,前些日子,朋友圈又因一事沸腾了。《中国电影报》2016年12月27日发布题为“豆瓣电影评分,面临信用危机”的文章,随后人民日报客户端转发了该文,并将标题改为“豆瓣、猫眼电影评分面临信用危机,恶评伤害电影产业”。

基于此,特地把以前抓取的豆瓣电影数据拿出来分析一下,重点比较中国电影与其他国家和地区的电影的差异,以为豆瓣评分正名。

2 数据概况

这个数据只抓取到2016年上半年,总计 58127 部电影。包括id,电影名称,豆瓣评分,评分人数,上映时间,导演,主演,制片国家,影片简介等等信息。按照评分人数从高到低排序,数据库截图如下。

可以发现,评分人数最多的电影是周星驰的《美人鱼》,这是一部国产片,说明国人对国产电影还是非常关心的,并不像人民日报所抨击的那样——国人崇洋媚外,不关心国产电影。

相关爬虫

[Python]从豆瓣批量获取看过电影的用户列表,并应用kNN算法预测用户性别

[Python]豆瓣用户读书短评下载

另外,也可以发现,评分人数越多,电影得分基本在7.0以上,属于中等以上的好片。(《小时代》除外)

3 各国电影质量分析

豆瓣评分最低打一星,换算成分数就是2.0分,因此豆瓣电影理论上的最低分不是0分,而是2.0分。

由于变量有点多,饼状图不直观,所以各个国家评分的百分比使用了 Treemap 来展示。

以下,选取了拍片频数比较高的15个国家和地区的数据进行简单的展示和分析。

3.1 美国

总电影数:16773,评分柱状图如下:

可以发现,美国拍片最多,但是烂片也多,基本上满足标准的良性正态分布的关系。

3.2 中国大陆

总电影数:7516,评分柱状图如下:

可以发现,中国拍片也多,但是烂片更多,好片很少,在8分出现了明显的断层现象。

3.3 日本

总电影数:8598,评分柱状图如下:

可以发现,日本电影的正态分布左移,说明其电影质量很高。

3.4 英国

总电影数:3667,评分柱状图如下:

3.5 法国

总电影数:3210,评分柱状图如下:

3.6 韩国

总电影数:2126,评分柱状图如下:

3.7 德国

总电影数:1344,评分柱状图如下:

3.8 加拿大

总电影数:1054,评分柱状图如下:

3.9 意大利

总电影数:1073,评分柱状图如下:

3.10 印度

总电影数:548,评分柱状图如下:

3.11 西班牙

总电影数:669,评分柱状图如下:

3.12 泰国

总电影数:598,评分柱状图如下:

3.13 澳大利亚

总电影数:454,评分柱状图如下:

3.14 中国香港

总电影数:3327,评分柱状图如下:

3.15 中国台湾

总电影数:1036,评分柱状图如下:

4 中国电影质量分析

说了这么多,接下来主要看看中国电影和其他国家、地区电影的比较吧。(没有对比,就没有伤害。)

4.1 中美电影对比

首先是美国的,单单从频数折线图的趋势,看不出什么,除了数目上的差距,两者基本一样。那么换成频率折线图呢?

可以发现,中等片(6.5分以上),美国的蓝线始终是高于中国的绿线。然而,在中等质量以下的片子,蓝线始终是低于绿线的,差距不是一星半点……

4.2 中日电影对比

再看看电影质量很好的日本,单单从频数折线图就能发现两者的巨大差距了。

在频率折线图中,可以发现两线的交点较中美折线图而言,左移了0.5分左右,并且两线的绝对距离也比中美折线图要大得多。可见中日电影的差距又比中美差距大了一步……如果说中美电影的差距是“望其项背”,那么中日电影的差距就是“望尘莫及”了。

4.3 中国大陆与中国香港电影对比

那再来看看中国大陆和中国香港的电影差距比较吧。

乍一看,还挺好的嘛~

其实不然,只是大陆拍片比较多而造成的假象。当频数转成频率之后,一切又变得不一样了。

可以看出在生产好片的水平上,两者半斤八两的差,而在中等片上,中国香港明显比大陆要好的多;在烂片上,大陆一如既往始终遥遥领先……

5 年度电影质量分析

5.1 近百年来的电影数目

我把每十年的电影汇总了一下,由于21世纪10年代才过去一半,所以最后一个柱状图低一点是完全正常的。去掉它之后,发现满足指数级增长的规律(可以预见未来五年会诞生出2万部影片)。

5.2 近十年每年的电影数目

近十年电影产出始终维持在一个比较高的水平。

5.3 近十年9.5分以上的极品好片

近十年极品电影仿佛是随运气而出现,参差不齐,没有发现规律。

5.4 近十年8分以上的好片

近十年8分以上好片的产出也始终维持在一个比较高的水平。

5.5 近十年6分以下的烂片

但是,近十年6分以下烂片的产出居然出现逐年递增的趋势。

http://blog.ursb.me/2017/01/16/6

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 前言
  • 2 数据概况
  • 3 各国电影质量分析
    • 3.1 美国
      • 3.2 中国大陆
        • 3.3 日本
          • 3.4 英国
            • 3.7 德国
              • 3.8 加拿大
                • 3.9 意大利
                  • 3.11 西班牙
                    • 3.12 泰国
                      • 3.13 澳大利亚
                        • 3.14 中国香港
                          • 4.1 中美电影对比
                            • 4.2 中日电影对比
                              • 4.3 中国大陆与中国香港电影对比
                              • 5 年度电影质量分析
                              • 5.1 近百年来的电影数目
                                • 5.3 近十年9.5分以上的极品好片
                                  • 5.4 近十年8分以上的好片
                                    • 5.5 近十年6分以下的烂片
                                    相关产品与服务
                                    数据库
                                    云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
                                    领券
                                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档