前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >遍历bilibili网站视频信息

遍历bilibili网站视频信息

原创
作者头像
钟志远
修改2017-06-19 19:16:24
4.4K0
修改2017-06-19 19:16:24
举报
文章被收录于专栏:钟志远的专栏钟志远的专栏

在以上两篇文章中我们已经在腾讯云服务器上搭建好了Python爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据:

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

今天我们要抓去的目标网站是,国内最大的年轻人潮流文化娱乐社区:哔哩哔哩 - ( ゜- ゜)つロ 干杯~ - bilibili B站自建站以来已经收纳了大约六百多万的视频,那么今天我们就写一个爬虫去征服这六百多万条视频信息。

[1488513362072_8527_1488513364354.png]
[1488513362072_8527_1488513364354.png]

我们想抓取的就是上面的播放次数、评论数量、硬币数量以及收藏数量,接着我们开始。

1、先分析

首先第一步这些数据在哪里?我们第一个想到的就是在网页源码里面,于是我们查看源码,搜索相关信息。

[1488513747525_2191_1488513750151.png]
[1488513747525_2191_1488513750151.png]

遗憾的是我们会发现,信息并不在源码中;紧接着我们打开chrome开发者工具查看请求信息。

[1488516453368_9522_1488516458787.png]
[1488516453368_9522_1488516458787.png]

http://api.bilibili.com/archivestat/stat?callback=jQuery172011470242640208683_1488515896642&aid=8904657&type=jsonp&=1488515897422

我们可以对以上的url进行修剪,删除一些不是必须要的参数。我们先观察这个url,aid是这个视频的id唯一标识不能删除,我们可以先把其余的参数都删掉试试看,如果不成功我们在一一加参数测试。

http://api.bilibili.com/archive_stat/stat?aid=8904657

[1488517262043_6743_1488517264369.png]
[1488517262043_6743_1488517264369.png]

显然,删除了非必要参数之后对内容毫无影响,所以我们只需要知道每个视频的aid就可以抓取所有的视频信息了。那么B站的视频aid是怎么编号的呢?我们可以多观察以下aid会发现这个aid是一个自动增长的主键,从1开始递增。于是我们代码思路有就了。

2、写代码

使用requests库来请求获取数据,并使用Python的内置库Json来提取数据。

[1488518293291_5096_1488518295603.png]
[1488518293291_5096_1488518295603.png]

现在已经可以抓取单个视频信息了,让你的小爬虫遍历整个B站的视频。

[1488518558918_2042_1488518561389.png]
[1488518558918_2042_1488518561389.png]

现在你只需要把你的爬虫一直开在服务器上就ok了。

相关推荐

【腾讯云的1001种玩法】云服务器搭建Python环境
【腾讯云的1001种玩法】云服务器搭建Python爬虫环境
知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【腾讯云的1001种玩法】云服务器搭建Python环境
  • 【腾讯云的1001种玩法】云服务器搭建Python爬虫环境
  • 知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档