遍历bilibili网站视频信息

在以上两篇文章中我们已经在腾讯云服务器上搭建好了Python爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据:

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

今天我们要抓去的目标网站是,国内最大的年轻人潮流文化娱乐社区:哔哩哔哩 - ( ゜- ゜)つロ 干杯~ - bilibili B站自建站以来已经收纳了大约六百多万的视频,那么今天我们就写一个爬虫去征服这六百多万条视频信息。

我们想抓取的就是上面的播放次数、评论数量、硬币数量以及收藏数量,接着我们开始。

1、先分析

首先第一步这些数据在哪里?我们第一个想到的就是在网页源码里面,于是我们查看源码,搜索相关信息。

遗憾的是我们会发现,信息并不在源码中;紧接着我们打开chrome开发者工具查看请求信息。

http://api.bilibili.com/archivestat/stat?callback=jQuery172011470242640208683_1488515896642&aid=8904657&type=jsonp&=1488515897422

我们可以对以上的url进行修剪,删除一些不是必须要的参数。我们先观察这个url,aid是这个视频的id唯一标识不能删除,我们可以先把其余的参数都删掉试试看,如果不成功我们在一一加参数测试。

http://api.bilibili.com/archive_stat/stat?aid=8904657

显然,删除了非必要参数之后对内容毫无影响,所以我们只需要知道每个视频的aid就可以抓取所有的视频信息了。那么B站的视频aid是怎么编号的呢?我们可以多观察以下aid会发现这个aid是一个自动增长的主键,从1开始递增。于是我们代码思路有就了。

2、写代码

使用requests库来请求获取数据,并使用Python的内置库Json来提取数据。

现在已经可以抓取单个视频信息了,让你的小爬虫遍历整个B站的视频。

现在你只需要把你的爬虫一直开在服务器上就ok了。

相关推荐

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张善友的专栏

[.NET网格计算框架] Alchemi

Alchemi [.NET网格计算框架] 是 一个以使用简易为目的的Windows下的网格计算框架。它提供了:a)开发网格软件的编程环境 和 b)建造网格和运行...

1788
来自专栏Python中文社区

Python爬虫实战之豆瓣音乐、微打赏、阳光电影

一、豆瓣音乐 今天爬的是豆瓣音乐top250,比较简单,主要是练练手。 1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是...

2125
来自专栏程序员宝库

现代后端开发者必备技能——2018 版

今天的Web开发与几年前完全不同,有很多不同的东西可以很容易地阻止任何人进入Web开发。这是我们决定制作这些循序渐进的视觉指南的原因之一,这些指南展示了更大的图...

853
来自专栏Python中文社区

jupyter notebook 远程连接调试实录

最近使用了一下jupyter notebook搭配GPU服务器这套搭配,顿时打开了一个新天地,记录一下配置过程。

1573
来自专栏每日一篇技术文章

SceneKit-渲染视频

821
来自专栏杨建荣的学习笔记

海量数据迁移之数据加载流程(r4笔记第88天)

在之前的博文中分享了关于数据抽取流程的一些思路,整体来说,数据的抽取是辅助,数据的加载是关键。加载的过程中每一步需要格外关注,稍有偏差就可能造成数据的损坏或者丢...

3223
来自专栏林德熙的博客

大文件的存储和备份

大概这个算法是现在世界上最好的存储算法之一,原因是他的论文发在 SCI 上,现在还没有人写出一个比他好的算法。

2192
来自专栏智能计算时代

在Salesforce Lightning Experience(闪电体验)提高性能和速度

如果您或您的用户在使用闪电体验时正在经历缓慢的页面加载时间,它可能与以下一种或多种问题类型有关。

792
来自专栏FreeBuf

密码分析工具 – Pipal

在很多情况下,我们需要进行各种各样的分析工作,这里为大家介绍一款密码分析工具——Pipal。 Pipal是一款密码分析工具,功能主要是进行密码合集文件分析。说...

1977
来自专栏AI2ML人工智能to机器学习

Shiny: R语言来建立开源交互式数据分析微服务的神器

先来说个应用场景: 假设你需要快速Prototype一个数据分析的服务, 而且需要给业务客户一定的自由度来理解数据分析的强大, 例如更换数据, 更换分析手段。 ...

933

扫码关注云+社区