前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《黑神话:悟空》B站弹幕、知乎回答分析

《黑神话:悟空》B站弹幕、知乎回答分析

作者头像
行哥玩Python
发布2020-08-28 15:48:53
6870
发布2020-08-28 15:48:53
举报
文章被收录于专栏:一行数据一行数据

最近行哥看到一部燃爆的游戏试玩短片火遍全网---《黑神话:悟空》,短短四天在B站便获得2100万+播放量。知乎也都在从各个角度评论这款游戏,所以行哥今天分别爬取上万条《黑神话:悟空》在B站的弹幕和知乎的回答,来看看这款游戏的评价到底怎么样

  • 1.爬取B站弹幕
  • 2爬取知乎回答
  • 3.词云分析
  • 4.结论
  • 5.参考

1.爬取B站弹幕

短短四天,该视频便有2100万+播放量和26万+弹幕,想爬取B站弹幕网上已经有了各种介绍文章,但大多都是利用api进行爬取,有些api也已经不再维护了。

所以行哥今天着重介绍下如何通过抓包--> requests来进行爬取B站弹幕,首先打开采集弹幕的视频,然后F12--> Network

虽然打开弹幕列表只能找到类似弹幕但被加密的数据包,但是我们可以通过点击弹幕列表—>查看历史弹幕,并选择任意一天的历史弹幕,此时就能找到存储该日期弹幕的ajax数据包,所有的弹幕都藏在一个i标签中

利用请求查看弹幕的ResquestURL主要是oid和date两个参数组成的,这两个参数也很轻松能够在数据包中找到,那就可以进行构建URL

代码语言:javascript
复制
def get_url(oid,start,end):
    '''
    获取指定日期的弹幕
    oid:视频oid
    start,end:起止日期
    '''
    url_list = []
    date_list = [i for i in pd.date_range(start,end).strftime('%Y-%m-%d')]
    for date in date_list:
        url = f"https://api.bilibili.com/x/v2/dm/history?type=1&oid={oid}&date={date}"
        url_list.append(url)
        
    return url_list

接下来要做的就是使用requests请求网站并使用bs4解析数据,最后将数据写入TXT即可。不过该方法限制每天只能获取1500条弹幕,所以本文爬取了20200820-20200824总共7500条弹幕,核心代码如下,需要全部源码可以在公众号[一行数据]后台回复[黑神话]即可获取

代码语言:javascript
复制
if __name__ == "__main__":
    #需要手动设置爬取弹幕的起止日期!
    #oid获取说明详见公众号:一行数据
    start = '20/8/2020'
    end = '24/8/2020'
    name = input("请输入视频名称")
    oid = input("请输入对应视频oid") # 226204073
    # print("========正在爬取弹幕=========")
    url_list = get_url(oid, start, end)
    get_danmu(url_list, name)
    print(f"{name}.txt已生成")

2爬取知乎回答

之前行哥有分享过如何爬取知乎一个问题下所有回答的推文,以下核心代码是利用知乎api进行获取所有4433个回答,如需要全部源码可以在公众号[一行数据]后台回复[黑神话]即可获取

代码语言:javascript
复制
def getAnswers(qid,title):
    # 全部源码请关注公众号:一行数据
    offset = 0
    num = 1
    f = open("知乎回答_%s.txt" % title, "a")
    while True:
        qid = qid
        print('Offset =', offset)
        # 知乎api请求
        data = getAnser(qid, offset)
        # print(data)
        if len(data['data']) == 0:
            break
        for line in data['data']:
            # print(line)
            dr = re.compile(r'<[^>]+>', re.S)
            dd = dr.sub('', line['content'])
            f.write(dd)
            print(dd)
        offset += 20

3.词云分析

利用之前行哥分享过的stylecloud工具包,两行代码便可以自动提取文字并生成漂亮的词云图,代码如下:

代码语言:javascript
复制
from stylecloud import gen_stylecloud
gen_stylecloud(file_path='B站弹幕_黑神话.txt',collocations=False,palette='tableau.GreenOrange_6',font_path=r'ziti.ttf',stopwords=False,icon_name='fas fa-thumbs-up',size=400,output_name='b_answer.png')

B站 弹幕词云

知乎回答词云

4.结论

从上图词云可以看到B站弹幕更多的是看到某一处场景直接有感而发“卧槽、起立”,而知乎用户更加理性的引经据典从游戏性、画面、音效等方面进行评价。其中也不外乎有一部分人,在弹幕发表即时感受,然后去知乎进行深入点评

不过总体就是一句:国游崛起、出必买

当然,最近该游戏制作人在微博指出它仍然有很多不足之处,但是对于旁观者来说这可是给国游玩家一剂最猛的强心剂,被游戏耽误的电影公司也不再是暴雪一家,剩下只需要给「游戏科学」足够的时间

5.参考

早起Python | https://mp.weixin.qq.com/s/rQd2nwLktw9kccgQNpNmWw

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一行数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.爬取B站弹幕
  • 2爬取知乎回答
  • 3.词云分析
  • 4.结论
  • 5.参考
  • 早起Python | https://mp.weixin.qq.com/s/rQd2nwLktw9kccgQNpNmWw
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档