hi~大家好!
自春节以来,《唐人街探案3》和《你好,李焕英》两部电影的热搜就没有停过,“陈思诚成中国首位百亿票房导演”、“贾玲成中国影史票房最高女导演”、“沈腾成为中国影史票房第一的演员”打破了票房刷新多项纪录!
两部电影上映七天,票房也双双进入30亿,其它电影成为陪衬!
两部电影虽然热评不断,但对《唐人街探案3》的评价却是极低,而《你好,李焕英》却好评不断!《唐人街探案3》在豆瓣的评分为5.7,超低的评分却有超高的票房,这不得不说让观众很失望!反之《你好,李焕英》以极低的成本获取了超高的评分和票房!
接下来让我们看下观众眼里的两部电影!
本次爬虫较为简单,就不再讲解。本文爬取了豆瓣电影中的短评,因为豆瓣有限制,爬取的是较为火热的短评,数据量较少,所以本文的意见仅供参考,纯属娱乐,切勿上纲上线!
导入需要用到的模块:
import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import *
from pyecharts.globals import ThemeType
import stylecloud
from IPython.display import Image
导入数据,两个文件的格式一致,一共500条数据:
df1 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\唐人街探案3.csv')
df2 = pd.read_csv('D:\数据小刀\爬虫④\豆瓣_影评\你好,李焕英.csv')
删除重复项:
df1 = df1.drop_duplicates()
df2 = df2.drop_duplicates()
查看数据信息:
df1.info()
df2.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 498 entries, 0 to 499
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 用户名 498 non-null object
1 有用 498 non-null int64
2 评分 498 non-null object
3 日期 498 non-null object
4 评论 498 non-null object
dtypes: int64(1), object(4)
memory usage: 23.3+ KB
<class 'pandas.core.frame.DataFrame'>
Int64Index: 494 entries, 0 to 499
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 用户名 494 non-null object
1 有用 494 non-null int64
2 评分 493 non-null object
3 日期 488 non-null object
4 评论 494 non-null object
dtypes: int64(1), object(4)
memory usage: 23.2+ KB
发现df2有缺失值,这里为了方便,直接删除掉:
df2.dropna(axis=0, how='any', inplace=True)
df2.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 487 entries, 0 to 499
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 用户名 487 non-null object
1 有用 487 non-null int64
2 评分 487 non-null object
3 日期 487 non-null object
4 评论 487 non-null object
dtypes: int64(1), object(4)
memory usage: 22.8+ KB
1、最赞短评
点赞最多的TOP10短评:
df1["有用"] = df1["有用"].astype('float') # 转换类型
df1.sort_values('有用',inplace=True,ascending=False)
df6 = df1.reset_index(drop=True)
df6[:10]
从这十条短评中可以看到:点赞最高的是“电影里插入广告”,评论最多的“剧情拼凑、分裂”,接着是吐槽“主演王宝强装疯卖傻”和讨论情节“打护士、36D、聒噪、无聊”。十条短评中评分为‘推荐’(四星)的只有一个。
2、评分占比
各个评分占比中,过一半占比为很差和较差,共占比69.88%:
df3 = df1["评分"].astype("str").value_counts()
df3 = df3.sort_values(ascending=False)
data_region = df3.index.to_list()
data_value = df3.to_list()
pie = (
Pie(init_opts=opts.InitOpts(theme=ThemeType.DARK))
.add("", list(zip(data_region,data_value)))
.set_global_opts(legend_opts = opts.LegendOpts(is_show = False),
title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="数据来源:豆瓣\n公 众 号 :Python与Excel之交"))
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}占比:{d}%",font_size=15))
)
pie.render_notebook()
3、评论时间
评论时间只要集中在春节,到达高峰,然后一路跌:
df7 = df1["日期"].value_counts()
line = (
Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
.add_xaxis(df7.index.to_list())
.add_yaxis("",df7.to_list())
.set_global_opts(title_opts=opts.TitleOpts(title="唐人街探索3",subtitle="Python与Excel之交"),
xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=13)),
)
.set_series_opts(label_opts=opts.LabelOpts(font_size=15,position='top'))
)
line.render_notebook()
4、词云
词云中提及最多的是歌曲“heal the world”,电影情节‘36D’;接着是“长泽雅美”这些日本演员;剩下的基本都是“逻辑混乱”、“太难看”、“乱七八糟”等词了。
stylecloud.gen_stylecloud(text=' '.join(df1['评论']),
max_words=200,
custom_stopwords=['唐探3','唐探','唐人街探案3'], # 停词
collocations=False,
font_path='simhei.ttf',
icon_name='fas fa-heart',
size=653,
output_name='./1.jpg')
Image(filename='./1.jpg')
三、《你好,李焕英》
1、最赞短评
点赞最多的TOP10短评:
十条短评中,点赞最多的是“你以为你已经很爱很爱妈妈了,但妈妈远比你想象中更爱更爱更爱你。
”;除了“吐槽沈腾”这条评分只是“还行”,其它的为“力荐”和“推荐”。
2、评分占比
各个评分占比中,“力荐”和“推荐”共占比64.68%,与《唐人街探案3》的评分正好相反:
3、评论时间
评论时间也是在春节到达高峰,但相比《唐人街探案3》,下降的比较平和:
4、词云
从词云中可以看出,泪点很多,其中“我宝”出现的最多,沈腾主演的“夏洛特烦恼”也被提及很多,接着是对情节的评论:”有笑有泪“、”喜剧“和”子欲养而亲不待“,“我的女儿”。
从两部电影的对比可以看出,哪部电影更好,观众更喜欢那部,明显可见!
本文分享自 Python与Excel之交 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!