前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对不起!《唐人街探案3》和《你好,李焕英》相比,我更推荐《你好,李焕英》!

对不起!《唐人街探案3》和《你好,李焕英》相比,我更推荐《你好,李焕英》!

作者头像
Python与Excel之交
发布2021-08-05 14:45:49
3800
发布2021-08-05 14:45:49
举报
文章被收录于专栏:Python与Excel之交

hi~大家好!

自春节以来,《唐人街探案3》和《你好,李焕英》两部电影的热搜就没有停过,“陈思诚成中国首位百亿票房导演”、“贾玲成中国影史票房最高女导演”、“沈腾成为中国影史票房第一的演员”打破了票房刷新多项纪录!

两部电影上映七天,票房也双双进入30亿,其它电影成为陪衬!

两部电影虽然热评不断,但对《唐人街探案3》的评价却是极低,而《你好,李焕英》却好评不断!《唐人街探案3》在豆瓣的评分为5.7,超低的评分却有超高的票房,这不得不说让观众很失望!反之《你好,李焕英》以极低的成本获取了超高的评分和票房!

一、数据可视化

接下来让我们看下观众眼里的两部电影!

本次爬虫较为简单,就不再讲解。本文爬取了豆瓣电影中的短评,因为豆瓣有限制,爬取的是较为火热的短评,数据量较少,所以本文的意见仅供参考,纯属娱乐,切勿上纲上线!

导入需要用到的模块:

代码语言:javascript
复制
import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import *
from pyecharts.globals import ThemeType 
import stylecloud
from IPython.display import Image

导入数据,两个文件的格式一致,一共500条数据:

代码语言:javascript
复制
df1 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\唐人街探案3.csv')
df2 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\你好,李焕英.csv')

删除重复项:

代码语言:javascript
复制
df1 = df1.drop_duplicates()
df2 = df2.drop_duplicates()

查看数据信息:

代码语言:javascript
复制
df1.info()
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 498 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     498 non-null    object
 1   有用      498 non-null    int64 
 2   评分      498 non-null    object
 3   日期      498 non-null    object
 4   评论      498 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.3+ KB

<class 'pandas.core.frame.DataFrame'>
Int64Index: 494 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     494 non-null    object
 1   有用      494 non-null    int64 
 2   评分      493 non-null    object
 3   日期      488 non-null    object
 4   评论      494 non-null    object
dtypes: int64(1), object(4)
memory usage: 23.2+ KB

发现df2有缺失值,这里为了方便,直接删除掉:

代码语言:javascript
复制
df2.dropna(axis=0, how='any', inplace=True)
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 487 entries, 0 to 499
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   用户名     487 non-null    object
 1   有用      487 non-null    int64 
 2   评分      487 non-null    object
 3   日期      487 non-null    object
 4   评论      487 non-null    object
dtypes: int64(1), object(4)
memory usage: 22.8+ KB

二、《唐人街探案3》

1、最赞短评

点赞最多的TOP10短评:

代码语言:javascript
复制
df1["有用"] = df1["有用"].astype('float') # 转换类型
df1.sort_values('有用',inplace=True,ascending=False)
df6 = df1.reset_index(drop=True)
df6[:10]

从这十条短评中可以看到:点赞最高的是“电影里插入广告”,评论最多的“剧情拼凑、分裂”,接着是吐槽“主演王宝强装疯卖傻”和讨论情节“打护士、36D、聒噪、无聊”。十条短评中评分为‘推荐’(四星)的只有一个。

2、评分占比

各个评分占比中,过一半占比为很差和较差,共占比69.88%:

代码语言:javascript
复制
df3 = df1["评分"].astype("str").value_counts()
df3 = df3.sort_values(ascending=False)
data_region = df3.index.to_list()
data_value = df3.to_list()
pie = (
        Pie(init_opts=opts.InitOpts(theme=ThemeType.DARK))
        .add("", list(zip(data_region,data_value)))
        .set_global_opts(legend_opts = opts.LegendOpts(is_show = False),
                         title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="数据来源:豆瓣\n公 众 号 :Python与Excel之交"))
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比:{d}%",font_size=15))
        
    )
pie.render_notebook()

3、评论时间

评论时间只要集中在春节,到达高峰,然后一路跌:

代码语言:javascript
复制
df7 = df1["日期"].value_counts()
line = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
    .add_xaxis(df7.index.to_list())
    .add_yaxis("",df7.to_list()) 
    .set_global_opts(title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="Python与Excel之交"),
                       xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
                       yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
                       )
    .set_series_opts(label_opts=opts.LabelOpts(font_size=15,position='top'))
    )
line.render_notebook()

4、词云

词云中提及最多的是歌曲“heal the world”,电影情节‘36D’;接着是“长泽雅美”这些日本演员;剩下的基本都是“逻辑混乱”、“太难看”、“乱七八糟”等词了。

代码语言:javascript
复制
stylecloud.gen_stylecloud(text=' '.join(df1['评论']),
                          max_words=200,
                          custom_stopwords=['唐探3','唐探','唐人街探案3'], #  停词
                          collocations=False,
                          font_path='simhei.ttf',
                          icon_name='fas fa-heart',
                          size=653,
                          output_name='./1.jpg')
Image(filename='./1.jpg') 

三、《你好,李焕英》

1、最赞短评

点赞最多的TOP10短评:

十条短评中,点赞最多的是“你以为你已经很爱很爱妈妈了,但妈妈远比你想象中更爱更爱更爱你。”;除了“吐槽沈腾”这条评分只是“还行”,其它的为“力荐”和“推荐”。

2、评分占比

各个评分占比中,“力荐”和“推荐”共占比64.68%,与《唐人街探案3》的评分正好相反:

3、评论时间

评论时间也是在春节到达高峰,但相比《唐人街探案3》,下降的比较平和:

4、词云

从词云中可以看出,泪点很多,其中“我宝”出现的最多,沈腾主演的“夏洛特烦恼”也被提及很多,接着是对情节的评论:”有笑有泪“、”喜剧“和”子欲养而亲不待“,“我的女儿”。

从两部电影的对比可以看出,哪部电影更好,观众更喜欢那部,明显可见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-02-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与Excel之交 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、数据可视化
  • 二、《唐人街探案3》
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档