遍历bilibili网站视频信息

在以上两篇文章中我们已经在腾讯云服务器上搭建好了Python爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据:

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

今天我们要抓去的目标网站是,国内最大的年轻人潮流文化娱乐社区:哔哩哔哩 - ( ゜- ゜)つロ 干杯~ - bilibili B站自建站以来已经收纳了大约六百多万的视频,那么今天我们就写一个爬虫去征服这六百多万条视频信息。

我们想抓取的就是上面的播放次数、评论数量、硬币数量以及收藏数量,接着我们开始。

1、先分析

首先第一步这些数据在哪里?我们第一个想到的就是在网页源码里面,于是我们查看源码,搜索相关信息。

遗憾的是我们会发现,信息并不在源码中;紧接着我们打开chrome开发者工具查看请求信息。

http://api.bilibili.com/archivestat/stat?callback=jQuery172011470242640208683_1488515896642&aid=8904657&type=jsonp&=1488515897422

我们可以对以上的url进行修剪,删除一些不是必须要的参数。我们先观察这个url,aid是这个视频的id唯一标识不能删除,我们可以先把其余的参数都删掉试试看,如果不成功我们在一一加参数测试。

http://api.bilibili.com/archive_stat/stat?aid=8904657

显然,删除了非必要参数之后对内容毫无影响,所以我们只需要知道每个视频的aid就可以抓取所有的视频信息了。那么B站的视频aid是怎么编号的呢?我们可以多观察以下aid会发现这个aid是一个自动增长的主键,从1开始递增。于是我们代码思路有就了。

2、写代码

使用requests库来请求获取数据,并使用Python的内置库Json来提取数据。

现在已经可以抓取单个视频信息了,让你的小爬虫遍历整个B站的视频。

现在你只需要把你的爬虫一直开在服务器上就ok了。

相关推荐

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PHP技术

给PHP开发者的九条建议

本文只是个人从实际开发经验中总结的一些东西,并不是什么名言警句,写出来有两个目的:一是时刻提醒自己要按照这些知识点来写自己代码,二是为了分享,说不定对你有用呢?...

873
来自专栏Bug生活2048

告别单调工作系列——利用python「拯救」漂亮妹子

在进入正题前想聊下这位漂亮妹子「不要想多了,只是聊聊漂亮妹子的工作」,这位妹子虽然苦恼,但她做这样的事情已经一年多了,可谓毅力可嘉,有时候我就会觉得很奇怪,为什...

612
来自专栏肖洒的博客

用Python开发微信公众号(一)

以前的想法终于提上日程,总觉得只有在比赛或者项目中才能提高开发效率。 想法由来:每天在学习生活中总要去关注一些消息,要登这个网站,要去哪个网站,一次次的输密...

863
来自专栏陈本布衣

Spring基础篇——DI/IOC和AOP原理初识

前言   作为从事java开发的码农,Spring的重要性不言而喻,你可能每天都在和Spring框架打交道。Spring恰如其名的,给java应用程序的开发带了...

2077
来自专栏SEO

「SEO知识」如何让搜索引擎知道什么是重要的?

1483
来自专栏SDNLAB

Neutron和ONOS集成实践

一.Neutron和ONOS集成 1、Neutron和ONOS社区动态 首先,我们可以从Neutron项目中的doc/source/policies/neutr...

2775
来自专栏程序猿的那些趣事

一个Mac系统,能让程序员编程效率提升30%

Mac 系统一向以提供高效的工作环境著称,iOS、Android和服务端程序员都可以轻松的在Mac上搭建舒适的开发环境。

822
来自专栏腾讯移动品质中心TMQ的专栏

抽丝剥茧定位Windows客户端CPU占用问题

摘要 本文主要展示了从电脑管家CPU占用过高问题发现到解决的全过程。包括分析问题的思路、解决问题的方法、压力测试的设计、优化前后数据对比等。同时,在末尾分享了自...

2335
来自专栏张戈的专栏

10个超有趣的Linux命令

本文展示了 10 个有趣的 Linux 动态命令,这些命令和实用功能无关,仅供娱乐!看完此文,你会对 Linux 有个全新的认识,谁说 IT 男就没有屌丝娱乐的...

2756
来自专栏IMWeb前端团队

作为一个前端,可以如何机智地弄坏一台电脑?

有人说,前端的界限就在浏览器那儿。 无论你触发了多少bug,最多导致浏览器崩溃,对系统影响不到哪去。 这就像二次元各种炫酷的毁灭世界,都不会导致三次元的世界末日...

2100

扫码关注云+社区