阅读本文需要4分钟
《流浪地球》带有浓厚的中国哲学和印记,片中隐而不现但始终横贯的主题,可以归纳成“为有牺牲多壮志、敢叫日月换新天”的哲思,故事的缘起和结束都在于家庭和传承,具有浓重的中国“家国情怀”。看的我呀, 激情满满。
1
数据分析
全部数据均来自豆瓣影评,主要是【‘口碑’,‘评论日期’,‘评论内容’】三方面数据。
分析目标URL:
https://movie.douban.com/subject/26266893/comments?start=10&limit=20&sort=new_score&status=P
start=20, limit=20, 根据多次测试, 参数start应该就是下一页
参数limit为每页的数据。所以只需要改变参数start就好。
2
数据采集
需要的模块:
import csv
import time
import random
import requests
from lxml import etree
主要部分代码:
def main():
for i in range(10, 201, 10):
url = baseurl.format(i)
print("开始爬取%d页" % i)
print('='*50)
response = requests.get(url, headers=headers).text
html = etree.HTML(response)
items = html.xpath('//div[@class="comment-item"]')
for item in items:
data = {}
score = ''.join(item.xpath('.//span[contains(@class, "rating")]/@title'))
data['口碑'] = score
date = ''.join(item.xpath('.//span[@class="comment-time "]//text()')[0]).strip()
data['评论日期'] = date
comment = item.xpath('.//span[@class="short"]/text()')[0]
data['评论内容'] = comment
time.sleep(random.randint(1, 2))
print(data)
data_list.append(data)
header = ['口碑', '评论日期', '评论内容']
with open('comment.csv', 'w', encoding='utf-8', newline='') as fb:
writer = csv.DictWriter(fb, header)
writer.writeheader()
writer.writerows(data_list)
3
数据分析
数据经过清洗, 整理, 统计等步骤 。口碑【388】日期【400】评论【99872】
需要的模块
# 统计图
from pyecharts.charts import Pie, Line
from pyecharts import options as opts
# 词云
import jieba
from matplotlib import pyplot as plt
from wordcloud import WordCloud
1 口碑扇形图:
主要代码
pie = Pie()
pie.add('口碑', [list(z) for z in zip(koubei, values)])
pie.set_global_opts(title_opts=opts.TitleOpts(title="口碑"),)
pie.render(path='口碑.html')
2 时间折线图:
主要代码
line = (Line()
.add_xaxis(date)
.add_yaxis('', values))
line.render(path='评论日期.html')
3 评论词云
主要代码
path = r'C:\Users\root\Desktop'
font = r'C:\Windows\Fonts\simfang.ttf'
f = open('评论.csv', 'r', encoding='utf-8').read()
cut = jieba.cut(f) # 分词
string = ' '.join(cut)
print(len(string))
stopword = ['xa0'] # 设置停止词,也就是你不想显示的词,这里这个词是我前期处理没处理好,你可以删掉他看看他的作用
wc = WordCloud(
background_color='white',
width=1000,
height=800,
font_path=font,
stopwords=stopword
)
wc.generate_from_text(string) # 绘制图片
plt.imshow(wc)
plt.axis('off')
plt.figure()
plt.show() # 显示图片
wc.to_file(path + r'\1234.png') # 保存图片
4
总结
《流浪地球》作为国产首部大型科幻, 观众对于它的口碑还是挺不错的,堪称良心制作,票房火爆。
大年初一就上映了, 但是本狗最近才看的,所以看了看豆瓣上的评论时间,哇, 看来大家那会都是很期待观看的,比我早好几倍呢。唉!!!
再来看看大家的评论, ‘模仿’, ‘科幻’,‘故事’,‘国产‘, 等关键字,可以感受出来, 但是我却看到了 ‘战狼’ 关键字, 我猜是可能和吴京有关吧, 毕竟《战狼2》曾今那么火爆。
获取源码 后台回复 【流浪地球】