专栏首页Python小二你认可《后浪》吗

你认可《后浪》吗

前几天 B 站上线了一个小视频《后浪》,在全网引起了热烈反响,有赞扬也有批评,视频地址:https://www.bilibili.com/video/BV1FV411d7u7,本文我们爬一下视频弹幕来了解一下 B 站网友对视频的看法。

视频弹幕是存在 xml 文件中的,链接的格式为:http://comment.bilibili.com/+cid+.xml,我们只需要拿到视频的 cid 即可,看一下获取方式,我们先打开视频链接 https://www.bilibili.com/video/BV1FV411d7u7,接着按 F12 键打开开发者工具选择 Network,再刷新一下页面,我们到 Filter 中输入 cid 即可,如下所示:

拿到了 cid,我们可以知道弹幕文件链接为:http://comment.bilibili.com/186803402.xml,打开链接看一下:

弹幕爬取的实现代码如下所示:

url = "http://comment.bilibili.com/186803402.xml"
req = requests.get(url)
html = req.content
html_doc = str(html, "utf-8")  # 修改成utf-8
# 解析
soup = BeautifulSoup(html_doc, "lxml")
results = soup.find_all('d')
contents = [x.text for x in results]
# 保存结果
dic = {"contents": contents}
df = pd.DataFrame(dic)
df["contents"].to_csv("bili.csv", encoding="utf-8", index=False)

现在我们已经获取了弹幕数据,接下来再对数据做个词云展示,实现代码如下所示:

def jieba_():
    # 打开评论数据文件
    content = open("bili.csv", "rb").read()
    # jieba 分词
    word_list = jieba.cut(content)
    words = []
    # 过滤掉的词
    stopwords = open("stopwords.txt", "r", encoding="utf-8").read().split("\n")[:-1]
    for word in word_list:
        if word not in stopwords:
            words.append(word)
    global word_cloud
    # 用逗号隔开词语
    word_cloud = ','.join(words)

def cloud():
    # 打开词云背景图
    cloud_mask = np.array(Image.open("bg.png"))
    # 定义词云的一些属性
    wc = WordCloud(
        # 背景图分割颜色为白色
        background_color='white',
        # 背景图样
        mask=cloud_mask,
        # 显示最大词数
        max_words=500,
        # 显示中文
        font_path='./fonts/simhei.ttf',
        # 最大尺寸
        max_font_size=60,
        repeat=True
    )
    global word_cloud
    # 词云函数
    x = wc.generate(word_cloud)
    # 生成词云图片
    image = x.to_image()
    # 展示词云图片
    image.show()
    # 保存词云图片
    wc.to_file('cloud.png')

看一下效果:

本文分享自微信公众号 - Python小二(chengxuzhijian),作者:py小二

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 爬取林丹和赵雅淇的微博评论,看看网友都说了些什么

    7 月 4 日,林丹在微博上宣布了自己退役的消息,7 月 6 日,林丹出轨女主赵雅淇发文诉委屈,先简单看一下他们发的微博。

    Python小二
  • Python 数据分析(一):NumPy 基础知识

    NumPy(Numerical Python)是一个开源的 Python 科学计算扩展库,主要用来处理任意维度数组与矩阵,通常对于相同的计算任务,使用 NumP...

    Python小二
  • 《民国奇探》的弹幕有点逗比,用 Python 爬下来看看

    电视剧《民国奇探》是一部充斥着逗比风的探案剧,剧中主要角色:三土、四爷、白小姐,三土这个角色类似于《名侦探柯南》中的柯南但带有搞笑属性,四爷则类似于毛利小五郎但...

    Python小二
  • 在命令行打开安卓UI界面

    叉叉敌
  • 实用FRIDA进阶:内存漫游、hook anywhere、抓包

    本章中我们进一步介绍,大家在学习和工作中使用Frida的实际场景,比如动态查看安卓应用程序在当前内存中的状态,比如指哪儿就能hook哪儿,比如脱壳,还有使用Fr...

    dengfeng1638205133
  • DAY21:阅读CUDA Array

    GPUS Lady
  • 13个Mongodb GUI可视化管理工具,总有一款适合你

    MongoDB数据库默认的管理工具是(CLI)Shell命令行,对于专业的DBA来说比较容易上手,但是对于普通人员GUI可视化工具更方便使用。我们就来介绍13个...

    lyb-geek
  • 播放视频时如何在视频帧上添加水印

    之前的一篇文章中我们介绍了播放视频的时候调整音频的音量,我们能否在播放视频的时候在视频画面上加上水印?

    用户7032228
  • 二进制安装k8s集群(17)-安装kubectl-debug

    在上一篇文章里我们主要介绍安装k8s集群内的基础服务nginx-ingress-controller,这里我们介绍一下k8s的pod调试工具。在k8s的容器环境...

    TA码字
  • 给公司写的composer包开发的规范

    总而言之,由于0.x版本在机制和语义上和大于1.0的版本有一定差异,容易产生误用,被用于生产环境的包的版本号都必须>=1.0

    猿哥

扫码关注云+社区

领取腾讯云代金券