开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >python爬虫—爬取b站APP视频信息（通过fiddler抓包工具）

python爬虫—爬取b站APP视频信息（通过fiddler抓包工具）

南山烟雨

修改于 2019-05-08 10:36:42

修改于 2019-05-08 10:36:42

2.8K0

举报

文章被收录于专栏：Python 大数据与SQL优化笔记Python 大数据与SQL优化笔记

1.先看效果图，随便抓的信息

2.解析，fiddler抓包工具的配置大家自己百度吧，教程都很详细

3.打开fiddler和模拟器，在模拟器打开哔哩哔哩软件，fiddler我是通过查找分析之后之后过滤的域名

4.我们通过打开b站的相应版块，然后进行往下翻页之后，fiddler就会根据我之前选择过滤的域名给我标黑

5.我们点开其中一条标黑的url，然后和b站软件的进行对比，发现我们需要的信息都可以抓取出来

6.我们可以通过这两条url的对比，查找出不同的地方，经过我的测试，pn代表的是页码，后面红框打叉的地方我们可以不要，这样我们就可以实现翻页了

7.需要注意的是我们需要无视ssl安全证书，也就是在requests那里加一个verify=False，这个很重要，不加的话就访问不了url的，返回的数据是json格式，所以大家都懂怎么操作了

8.大家想要什么数据自己去找，当然其中的数据代表什么也需要大家自己去想了

9.再说一下，翻页到什么时候就到底了呢，通过观察我发现，当到底部的时候，json数据里面的data为空，所以我们只要判断json里面的data是否为空做为判断是否到达底部

完整代码关注公众号pythonislover, 回复：b站

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新

目录

1.先看效果图，随便抓的信息

2.解析，fiddler抓包工具的配置大家自己百度吧，教程都很详细

3.打开fiddler和模拟器，在模拟器打开哔哩哔哩软件，fiddler我是通过查找分析之后之后过滤的域名

4.我们通过打开b站的相应版块，然后进行往下翻页之后，fiddler就会根据我之前选择过滤的域名给我标黑

5.我们点开其中一条标黑的url，然后和b站软件的进行对比，发现我们需要的信息都可以抓取出来

6.我们可以通过这两条url的对比，查找出不同的地方，经过我的测试，pn代表的是页码，后面红框打叉的地方我们可以不要，这样我们就可以实现翻页了

7.需要注意的是我们需要无视ssl安全证书，也就是在requests那里加一个verify=False，这个很重要，不加的话就访问不了url的，返回的数据是json格式，所以大家都懂怎么操作了

8.大家想要什么数据自己去找，当然其中的数据代表什么也需要大家自己去想了

9.再说一下，翻页到什么时候就到底了呢，通过观察我发现，当到底部的时候，json数据里面的data为空，所以我们只要判断json里面的data是否为空做为判断是否到达底部