前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据分析《流浪地球》

大数据分析《流浪地球》

作者头像
Python知识大全
发布2020-02-13 14:07:01
1.7K0
发布2020-02-13 14:07:01
举报
文章被收录于专栏:Python 知识大全

阅读本文需要4分钟

《流浪地球》带有浓厚的中国哲学和印记,片中隐而不现但始终横贯的主题,可以归纳成“为有牺牲多壮志、敢叫日月换新天”的哲思,故事的缘起和结束都在于家庭和传承,具有浓重的中国“家国情怀”。看的我呀, 激情满满。

1

数据分析

全部数据均来自豆瓣影评,主要是【‘口碑’,‘评论日期’,‘评论内容’】三方面数据。

分析目标URL:

代码语言:javascript
复制
https://movie.douban.com/subject/26266893/comments?start=10&limit=20&sort=new_score&status=P

start=20, limit=20, 根据多次测试, 参数start应该就是下一页

参数limit为每页的数据。所以只需要改变参数start就好。

2

数据采集

需要的模块:

代码语言:javascript
复制
import csv
import time
import random
import requests
from lxml import etree

主要部分代码:

代码语言:javascript
复制
def main():
    for i in range(10, 201, 10):
        url = baseurl.format(i)
        print("开始爬取%d页" % i)
        print('='*50)
        response = requests.get(url, headers=headers).text
        html = etree.HTML(response)
        items = html.xpath('//div[@class="comment-item"]')
        for item in items:
            data = {}
            score = ''.join(item.xpath('.//span[contains(@class, "rating")]/@title'))
            data['口碑'] = score
            date = ''.join(item.xpath('.//span[@class="comment-time "]//text()')[0]).strip()
            data['评论日期'] = date
            comment = item.xpath('.//span[@class="short"]/text()')[0]
            data['评论内容'] = comment
            time.sleep(random.randint(1, 2))
            print(data)
            data_list.append(data)
            header = ['口碑', '评论日期', '评论内容']
            with open('comment.csv', 'w', encoding='utf-8', newline='') as fb:
                writer = csv.DictWriter(fb, header)
                writer.writeheader()
                writer.writerows(data_list)

3

数据分析

数据经过清洗, 整理, 统计等步骤 。口碑【388】日期【400】评论【99872】

需要的模块

代码语言:javascript
复制
# 统计图
from pyecharts.charts import Pie, Line
from pyecharts import options as opts
# 词云
import jieba
from matplotlib import pyplot as plt
from wordcloud import WordCloud

1 口碑扇形图:

主要代码

代码语言:javascript
复制
pie = Pie()
pie.add('口碑', [list(z) for z in zip(koubei, values)])
pie.set_global_opts(title_opts=opts.TitleOpts(title="口碑"),)
pie.render(path='口碑.html')

2 时间折线图:

主要代码

代码语言:javascript
复制
line = (Line()
        .add_xaxis(date)
        .add_yaxis('', values))
line.render(path='评论日期.html')

3 评论词云

主要代码

代码语言:javascript
复制
path = r'C:\Users\root\Desktop'
font = r'C:\Windows\Fonts\simfang.ttf'

f = open('评论.csv', 'r', encoding='utf-8').read()

cut = jieba.cut(f)  # 分词
string = ' '.join(cut)
print(len(string))
stopword = ['xa0']  # 设置停止词,也就是你不想显示的词,这里这个词是我前期处理没处理好,你可以删掉他看看他的作用
wc = WordCloud(
    background_color='white',
    width=1000,
    height=800,
    font_path=font,
    stopwords=stopword
)
wc.generate_from_text(string)  # 绘制图片
plt.imshow(wc)
plt.axis('off')
plt.figure()
plt.show()  # 显示图片
wc.to_file(path + r'\1234.png')  # 保存图片

4

总结

《流浪地球》作为国产首部大型科幻, 观众对于它的口碑还是挺不错的,堪称良心制作,票房火爆。

大年初一就上映了, 但是本狗最近才看的,所以看了看豆瓣上的评论时间,哇, 看来大家那会都是很期待观看的,比我早好几倍呢。唉!!!

再来看看大家的评论, ‘模仿’, ‘科幻’,‘故事’,‘国产‘, 等关键字,可以感受出来, 但是我却看到了 ‘战狼’ 关键字, 我猜是可能和吴京有关吧, 毕竟《战狼2》曾今那么火爆。

获取源码 后台回复 【流浪地球】

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python 知识大全 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档