遍历bilibili网站视频信息

在以上两篇文章中我们已经在腾讯云服务器上搭建好了Python爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据:

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

今天我们要抓去的目标网站是,国内最大的年轻人潮流文化娱乐社区:哔哩哔哩 - ( ゜- ゜)つロ 干杯~ - bilibili B站自建站以来已经收纳了大约六百多万的视频,那么今天我们就写一个爬虫去征服这六百多万条视频信息。

我们想抓取的就是上面的播放次数、评论数量、硬币数量以及收藏数量,接着我们开始。

1、先分析

首先第一步这些数据在哪里?我们第一个想到的就是在网页源码里面,于是我们查看源码,搜索相关信息。

遗憾的是我们会发现,信息并不在源码中;紧接着我们打开chrome开发者工具查看请求信息。

http://api.bilibili.com/archivestat/stat?callback=jQuery172011470242640208683_1488515896642&aid=8904657&type=jsonp&=1488515897422

我们可以对以上的url进行修剪,删除一些不是必须要的参数。我们先观察这个url,aid是这个视频的id唯一标识不能删除,我们可以先把其余的参数都删掉试试看,如果不成功我们在一一加参数测试。

http://api.bilibili.com/archive_stat/stat?aid=8904657

显然,删除了非必要参数之后对内容毫无影响,所以我们只需要知道每个视频的aid就可以抓取所有的视频信息了。那么B站的视频aid是怎么编号的呢?我们可以多观察以下aid会发现这个aid是一个自动增长的主键,从1开始递增。于是我们代码思路有就了。

2、写代码

使用requests库来请求获取数据,并使用Python的内置库Json来提取数据。

现在已经可以抓取单个视频信息了,让你的小爬虫遍历整个B站的视频。

现在你只需要把你的爬虫一直开在服务器上就ok了。

相关推荐

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏通信云团队

开发一款即时通讯App,从这几步开始

7774
来自专栏Spark学习技巧

干货!一次kafka卡顿事故排查过程

由于一次功能上线后,导致某数据量急剧下滑,给我们紧张的呢!排查过程也是个学习过程!抛开结果,方法论可供参考~

714
来自专栏JAVA高级架构

分布式架构--基本思想汇总

671
来自专栏Linyb极客之路

面对峰值响应冲击,解决高并发的三大策略

在写这篇博客的前2天,听说某系统在25人的用户量下就宕机了,实在让人震惊,所以捋了下互联网交易系统我们可以采取哪些技术来解决互联网平台下大数据量高并发的问题。

1603
来自专栏FreeBuf

序列化漏洞影响半数以上Android手机

Stagefright漏洞爆出没多久,Android平台又爆出一重大漏洞,影响55%的手机。IBM的X-Force应用安全研究团队近日发现了这一漏洞。 攻击者可...

2079
来自专栏企鹅号快讯

补丁管理:不要以持续运行时间为自豪

在补丁管理方面一些 Linux 系统管理员和 Windows 系统管理员没有差别。实话说,在一些方面甚至做的更差(特别是以持续运行时间为自豪)。 -- Kyle...

1979
来自专栏不止思考

架构设计之「服务隔离」

那什么是「服务隔离」呢? 顾名思义,它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故障发生时,能将问题和影响隔离在某个模块...

1123
来自专栏企鹅号快讯

还在让浏览器自动保存密码?“自动填充”功能曝重大安全隐患

“用指尖改变世界” ? 来自普林斯顿大学的隐私安全保护专家警告说,互联网广告公司或者数据分析公司可以使用隐藏的登录字段从网页浏览器中提取用户保存的用于登录某些网...

1899
来自专栏技术杂文

你信任的公司正在窃取你的信息

通常来讲,“购买新产品” 指的是这样的交易过程:购买食物时,可以先确认食材然后购买它,即使难吃也不会要了你的命;购买汽车时,首先它得符合所有安全标准;为特定目的...

983
来自专栏FreeBuf

苹果的代码签名漏洞将允许恶意软件绕过多款Mac安全产品

近期,来自安全公司Okta Rex的研究专家Josh Pitts在macOS的代码签名机制中发现了一个可以利用的安全漏洞。这个漏洞潜伏了一年之久,它允许攻击者将...

840

扫码关注云+社区