1
前言
最近爱奇艺独播热剧『赘婿』特别火,笔者也在一直追,借助手中的技术,想爬取弹幕分析该剧的具体情况以及网友的评论!
由于为了让小白彻底学会使用python爬取爱奇艺弹幕的技术,因此本文详细介绍如何进行爬取,下文再进行分析数据!
2
分析数据包
1.查找数据包
在浏览器里面按F12
找到这类url
2.分析弹幕链接
爱奇艺的弹幕获取地址如下:
https://cmts.iqiyi.com/bullet/参数1_300_参数2.z
参数2是:数字1、2、3.....
爱奇艺每5分钟会加载新的弹幕,每一集约是46分钟,46除以5向上取整就是10
因此弹幕的链接如下:
3.解码二进制数据包
通过弹幕链接下载的弹幕包是以z为后缀格式的文件,需要进行解码!
解码之后将数据保存成xml格式
3
解析xml
1.提取数据
通过查看xml文件,我们需要提取的内容有1.用户id(uid)、2.评论内容(content)、3.评论点赞数(likeCount)。
4
保存数据
1.保存前工作
导入xlwt库(写入csv),并定义好标题(uid、content、likeCount)
2.写入数据
最后保存成弹幕数据集-李运辰.xls
5
总结
1.通过实战案例『赘婿』,手把手实现python爬取爱奇艺弹幕。
2.python解析xml格式数据。
3.将数据写入excel。
更多阅读
领取专属 10元无门槛券
私享最新 技术干货