网络爬虫实战教材:Python采集各类直播弹幕!

在网上找到了一份斗鱼弹幕服务器第三方接入协议v1.6.2,有了第三方接口,做起来就容易多了。

一、协议分析

斗鱼后台协议头设计如下:

这里的消息长度是我们发送的数据部分的长度和头部的长度之和,两个消息长度是一样。然后要注意的是该协议使用的是小端整数,所以我们要对数据进行处理后再发送,这里可以使用int.to_bytes()将整数转变成小端整数的形式。示例如下:

然后消息类型是689(689表示客户端发送给服务器,690表示服务器发送给客户端),加密字段和保留字段都是默认为0。这里由于消息类型是两个字节的,加密字段和保留字段都是一个字节,但是因为加密字段和保留字段都是0,所以这四个字节可以使用int.to_bytes(689,4,'little')来表示。最后该协议使用的是utf-8编码,所以我们需要对整个数据进行编码后再发送。

二、具体步骤

1、连接服务器

第三方客户端通过 TCP 协议连接到弹幕服务器(依据指定的 IP 和端口),其中IP 地址为openbarrage.douyutv.com,端口为8601,相关代码如下:

2、发送登录请求

客户端向弹幕服务器发送登录请求,登录弹幕服务器,格式如下:

3、发送加组请求

客户端收到登录成功消息后发送进入弹幕分组请求给弹幕服务器,格式如下:

gid表示分组号,第三方平台建议选择-9999即海量弹幕模式。

4、接收广播消息

接收服务器发送的广播消息,包括用户发的弹幕和送的礼物信息,然后解析得到具体的内容。但这些数据里只有礼物的id而没有具体的礼物名称,然后我通过抓包找到了两个链接,里面包含了礼物id和名称的对应关系,相关代码如下:

5、发送心跳消息

客户端每隔45秒给服务器发送一次心跳消息,用于维护和服务器后台间的联系,格式如下:

6、核心代码

在发送数据的时候,有可能会出现一次无法发送完的情况,所以就需要多发送几次,确保把数据都发送出去:

三、运行结果

运行截图:

进入数据库查看结果:

结果如下:

还可以看看大家都发了什么弹幕:

结果如下:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190118A0D4SB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券