首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python《赘婿》弹幕

他也是元标记语言,即定义了用于定义其他领域有关的、语义的、结构化的标记语言的句法语言 Python对XML的解析 常见的XML接口主要有两种DOM和SAX,这两种接口处理XML的方式不同,当然使用的场景也不相同...SAX(simple API for XML) Python标准库包括SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个事件并调用用户定义的回调函数来处理XML文件。...Python解析XML示例 from xml.dom.minidom import parse import xml.dom.minidom # 使用minidom解析器打开XML文档 DOMTree...今天我们的实战内容就是把观众发送的弹幕抓取下来,并将我在过程中遇到的内容分享给大家。 分析网页 一般来说,视屏的弹幕是不可能出现在网页源码中的,那么初步判断是通过异步加载弹幕数据。...那现在我们又需要回到刚刚的起点了,需要构造弹幕URL,并向该URL发送请求,获取它的二进制数据,再进行解压缩并保存为XML文件,最后从该文件中提取弹幕数据。

52250

Python实时斗鱼弹幕

实现目标: 输入斗鱼房间号实时获取弹幕信息,实现效果如下: douyu.gif 逻辑梳理 首先说明下斗鱼是开放了弹幕API的,可以直接去他们开发者论坛查看文档,按照文档中要求一步一步的来就好了...,我这边就简单梳理下: 建立两个线程:一个与弹幕服务器建立连接然后获取数据,一个定时发送心跳信息给弹幕服务器保持连接。...建立连接 通过TCP协议连接到弹幕服务器; IP 地址:openbarrage.douyutv.com 端口:8601 向弹幕服务器发送登录请求,登录弹幕服务器,消息格式type@=loginreq...@=-9999/,gid使用-9999就好,表示海量弹幕模式; 接下来接收消息就好了,当然服务器返回的不止弹幕信息,还包括礼物/特殊人物进入房间等消息,这部分可以通过返回消息的type进行判断,选择自己需要的就好...=-9999/uid@=123456/nn@=test /txt@=666/level@=1/ 判断type,弹幕消息为chatmsg,txt为弹幕内容,nn为用户昵称 '''

2K10
您找到你想要的搜索结果了吗?
是的
没有找到

python7w+『赘婿』弹幕,发现弹幕比剧还精彩!

1 前言 在上一篇文章【以『赘婿』为实战案例,手把手教会你用python『爱奇艺』视频弹幕】,教会了大家如何爱奇艺弹幕! 本文将在上文的基础上继续完善,更多的弹幕数据进行可视化分析!...同样还是以『赘婿』为例,目前已经更新到28集,下面将这28集的全部弹幕数据,约7w+条数据!!! 2 采集数据 1.寻找url ?...上文介绍到,每一集都需要通过查看数据把获取弹幕的url 因此,我们需要去获取这28级的弹幕url!!!...,46除以5向上整 try: url = 'https://cmts.iqiyi.com/bullet'+str(url_id)+'_300_'...4 总结 1.取了7w+『赘婿』弹幕,保存到excel(数据分享给大家)! 2.通过pandas读取excel并进行相关统计计算! 3.以可视化方式当分析好的数据进行可视化展示!

55130

Python爬虫 B站视频弹幕 + 绘制词云

文章目录 利用python爬虫抓取B站视频弹幕数据保存到txt,并绘制词云。...视频链接:https://www.bilibili.com/video/BV1zE411Y7JY [4f6fwvfb13.png] 一、分析网页 点击弹幕列表,查看历史弹幕,并选择任意一天的历史弹幕,此时就能找到存储该日期弹幕的...sxseg9ud9u.png] 查看请求的相关信息 [yo3c9odz37.png] 可以发现Request URL关键就是 oid 和 date 两个参数,date很明显是日期,换日期可以实现翻页弹幕...[22ul6l7d49.png] 二、获取弹幕数据 本文该视频1月1日到今天8月6日的历史弹幕数据,构造出时间序列: import pandas as pd start = '20200101'...date_list = [x for x in pd.date_range(start, end).strftime('%Y-%m-%d')] count = 0 main() 程序运行,成功取下弹幕数据并保存到

3K82

Python3B站视频弹幕文字+视频

需要准备的环境: 1、一个B站账号,需要先登录,否则不能查看历史弹幕记录 2、联网的电脑和顺手的浏览器,我用的Chrome 3、Python3环境以及request模块,安装使用命令,换源比较快: 步骤...: 1.登录后打开需要的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求 其中rolldate后面的数字表示该视频对应的弹幕号,返回的数据中timestamp...表示弹幕日期,new表示数目 4.在查看历史弹幕中任选一天,查看,会发出新的请求 dmroll ,时间戳,弹幕号,表示获取该日期的弹幕,1507564800 表示2017/10/10 0:0:0 该请求返回...xml数据 5.使用正则表达式获取所有弹幕消息,匹配模式 '(.*?)'...6.拼接字符串,将所有弹幕保存到本地文件即可 with open('content.txt', mode='w+', encoding='utf8') as f: f.write(content)

1.1K90

bilibili弹幕与比对分析

最近受人之托研究了下b站的数据做个小工具,最后朋友说不需要了,本着开源共享的原则,将研究成果与大家分享一波,话不多说直接上干货 需求分析 给定up主uid和用户uid,取用户在该up主所有视频中发的所有弹幕...使用firefox浏览器打开视频,f12后搜索list.so请求会发现弹幕xml文件,同样也是GET请求 接口地址:https://api.bilibili.com/x/v1/dm/list.so?...aid=视频av号&jsonp=jsonp 需要注意的是返回的是一个数组,这说明如果视频弹幕过多的话可能有多个xml文件,我们需要遍历获取 弹幕xml文件分析 文件格式内容如下所示 可以看到里面d标签的文字内容就是发送的弹幕...,但是我们还需要对弹幕的发送者与我们给定的用户进行对比,所以需要对d标签的属性p进行分析,p属性使用逗号隔开的一系列数据,其中各个参数属性如下 123123 我们只需要获取里面的第7个参数用户的唯一标识即可 难点分析 用户id转换 在弹幕xml文件中获取的用户标识是用户uid经过hash后的编码,所以我们需要进行转换后才能对比校验

41040

实战 | PythonB站柯南弹幕+Gephi梳理主线剧情

作者:皖渝 来源:凹凸数据 一、介绍 利用Chrome浏览器抓包可知,B站的弹幕文件以XML文档式进行储存,如下所示(共三千条实时弹幕) 其URL为:http://comment.bilibili.com...完整取代码如下 import requests import re from bs4 import BeautifulSoup as BS import os path='C:/Users/dell/..."柯南"文件下 注:这里共取到980个弹幕文件。...三、人物形象网络分析 I.合并txt文件 为尽可能反映出弹幕观众对人物形象的描述,考虑到一集弹幕共3000条,为减少运行成本,这里仅选取特定人物讨论次数最多的20集合并后再进行分析。...再做一张琴酒的~ 哈哈哈,大家对琴酒的评价就比较逗逼了,变态,痴汉,聪明啥都有~ 你以为的琴酒,实际上的琴酒(手动滑稽 以上就是本次python实战的全部内容~ 发现“在看”和“赞”了吗,戳我试试吧 ?

58040

实战 | PythonB站柯南弹幕+Gephi梳理主线剧情

一、介绍 利用Chrome浏览器抓包可知,B站的弹幕文件以XML文档式进行储存,如下所示(共三千条实时弹幕) ?...完整取代码如下 import requests import re from bs4 import BeautifulSoup as BS import os path='C:/Users/dell/...注:这里共取到980个弹幕文件。【B站的柯南自941集后就跳到994集(大会员才能观看的)。虽然目前更新到1032话,但并没有1032集内容,如下图所示】 ?...三、人物形象网络分析 I.合并txt文件 为尽可能反映出弹幕观众对人物形象的描述,考虑到一集弹幕共3000条,为减少运行成本,这里仅选取特定人物讨论次数最多的20集合并后再进行分析。...以上就是本次python实战的全部内容~ 欢迎大家关注皖渝的博客: https://blog.csdn.net/shine4869/article/details/107381791

44520

Python 40万条《都挺好》弹幕数据,发现弹幕比剧还精彩?

共计取了 394452 条弹幕(雨露均沾,每集平均 8575 条,每 30s 的间隔),来挖一挖弹幕这个宝藏。 01 弹幕基本盘概览 爬到的源数据是酱紫的: ? ?...02 是谁在疯狂发射弹幕,而弹幕又爱上了谁 弹幕发送量 Top10 榜单 我们都知道明成是“行走的造粪机”,那么从弹幕的角度来看,谁是“行走的弹幕发射机”呢?...为此,我们筛选出累计发送弹幕 Top10 的用户: 微微一操作(、清洗和分析都使用 Python) danmu_counts = df.groupby('用户名')['评论id'].count...上一步我们知道平均每个人在整部剧会发送 3.34 条弹幕,而弹幕发送排行榜前十的旁友们发送量都是过千级别的,我们再加上这个用户弹幕发送涉及到的集数,进一步看看平均每集发送弹幕数。...ID'api_key = '输入实际KEY'secret_key = '输入实际SECRET_KEY'client = AipNlp(app_id,api_key,secret_key) #定义函数,以便循环

55510

Python394452条《都挺好》弹幕数据,比剧情还精彩?

共计取了 394452 条弹幕(雨露均沾,每集平均 8575 条,每 30s 的间隔),来挖一挖弹幕这个宝藏。 作者:周志鹏 来源:数据不吹牛 ?...02 是谁在疯狂发射弹幕,而弹幕又爱上了谁 1. 弹幕发送量 Top10 榜单 我们都知道明成是“行走的造粪机”,那么从弹幕的角度来看,谁是“行走的弹幕发射机”呢?...为此,我们筛选出累计发送弹幕 Top10 的用户,微微一操作(、清洗和分析都使用 Python): danmu_counts = df.groupby('用户名')['评论id'].count()....上一步我们知道平均每个人在整部剧会发送 3.34 条弹幕,而弹幕发送排行榜前十的旁友们发送量都是过千级别的,我们再加上这个用户弹幕发送涉及到的集数,进一步看看平均每集发送弹幕数。...api_key = '输入实际KEY' secret_key = '输入实际SECRET_KEY' client = AipNlp(app_id,api_key,secret_key) #定义函数,以便循环

67740

Python201865条《隐秘的角落》弹幕,发现看剧不如爬山?

这里参考了“数据兔小白[2]的代码,我又修改后实现分集所有弹幕。...共取得到201865 条《隐秘的角落》弹幕数据。 ? 弹幕发射器 按照用户id分组并对弹幕id计数,可以得到每位用户的累计发送弹幕数。...这些弹幕大家都认同 抛开“弹幕发射器”同志,我们继续探究一下分集的弹幕。 看看每一集当中,哪些弹幕大家都很认同(赞)?...本文相关数据和可视化源码下载: https://alltodata.cowtransfer.com/s/5b483c08987243 参考文章 [1]小z,数据不吹牛: 《Python 394452...[2]数据兔小白: 爱奇艺弹幕后,我找到了共鸣 注:本文仅用于学习交流,禁止用于商业用途。

57020

弹幕飞一会儿——腾讯视频弹幕(39W+)实战

本文转载自微信公众号:数据不吹牛 本文以腾讯视频(都挺好)为例,解析弹幕的细节和难点,对思路感兴趣的旁友们可以跟着文章逻辑走一遍,对于想直接上手的同学,文末已给出完整代码。...相对于一般电影OR电视剧评论,弹幕能够贴合剧情,进行更多有意思的脑洞分析。 注:上一篇《都挺好》弹幕分析文章所有数据(39W+)均基于本文代码。...目前来说,对于弹幕(腾讯视频),单纯的headers伪装就能够畅通无阻,但也建议大家文明,理性分析 :) 至此,我们锅、碗和面都已经准备到位了,再把刚才各模块写的精简一些,然后就可以酣畅淋漓的吃大碗宽面了...target_id combine = get_all_ids(part1_url,part2_url,headers) #设置要多少集(num参数),每一集多少页弹幕(1-...85页,page参数),这里默认是第一集的5页弹幕 #比如想要30集,每一集85页,num = 30,page = 85 final_result = crawl_all(combine

2.5K31
领券