专栏首页钟志远的专栏遍历bilibili网站视频信息
原创

遍历bilibili网站视频信息

在以上两篇文章中我们已经在腾讯云服务器上搭建好了Python爬虫环境了,下一步就是在云服务器上爬上我们的爬虫,抓取我们想要的数据:

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

今天我们要抓去的目标网站是,国内最大的年轻人潮流文化娱乐社区:哔哩哔哩 - ( ゜- ゜)つロ 干杯~ - bilibili B站自建站以来已经收纳了大约六百多万的视频,那么今天我们就写一个爬虫去征服这六百多万条视频信息。

我们想抓取的就是上面的播放次数、评论数量、硬币数量以及收藏数量,接着我们开始。

1、先分析

首先第一步这些数据在哪里?我们第一个想到的就是在网页源码里面,于是我们查看源码,搜索相关信息。

遗憾的是我们会发现,信息并不在源码中;紧接着我们打开chrome开发者工具查看请求信息。

http://api.bilibili.com/archivestat/stat?callback=jQuery172011470242640208683_1488515896642&aid=8904657&type=jsonp&=1488515897422

我们可以对以上的url进行修剪,删除一些不是必须要的参数。我们先观察这个url,aid是这个视频的id唯一标识不能删除,我们可以先把其余的参数都删掉试试看,如果不成功我们在一一加参数测试。

http://api.bilibili.com/archive_stat/stat?aid=8904657

显然,删除了非必要参数之后对内容毫无影响,所以我们只需要知道每个视频的aid就可以抓取所有的视频信息了。那么B站的视频aid是怎么编号的呢?我们可以多观察以下aid会发现这个aid是一个自动增长的主键,从1开始递增。于是我们代码思路有就了。

2、写代码

使用requests库来请求获取数据,并使用Python的内置库Json来提取数据。

现在已经可以抓取单个视频信息了,让你的小爬虫遍历整个B站的视频。

现在你只需要把你的爬虫一直开在服务器上就ok了。

相关推荐

【腾讯云的1001种玩法】云服务器搭建Python环境

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【腾讯云的1001种玩法】云服务器搭建Python环境

    之前一直在用阿里云服务器跑爬虫、小脚本。这两天在朋友的安利下转到了腾讯云上面来,刚好趁这个机会写一写有关于云服务器上Python爬虫环境的搭建。

    钟志远
  • 【腾讯云的1001种玩法】云服务器搭建Python爬虫环境

    在上一篇文章中,我们已经学会了在云服务器上搭建Python环境了,假设你已经在云服务器上搭建好了Python环境,我们将进入下一步:搭建Python爬虫环境。

    钟志远
  • Python操作Redis - 云爬虫初探

    云存储Redis(Cloud Redis Store)是腾讯云打造的兼容Redis协议的缓存和存储服务,提供主从版和集群版。丰富的数据结构能帮助您完成不同类型的...

    钟志远
  • 记录一个发邮件的cs文件

    /* ---------------------------------      *     E-mail 发送接口      *     调用示例     ...

    用户1172164
  • python复习笔记

    #python复习笔记 <font color=blue>##基础</font> <pre> 1.下划线(_)在解释器中有特别的含义,表示最后一个表达式的值。

    py3study
  • 设计模式-迭代器模式

    每次想起学生时代,经常性点名,第头来,第尾来,乱来,呵呵,老师的点名方式五花8门...而点这种就类似到遍历,我们设计模式中的迭代器一样的逻辑,从头到尾或按照想要...

    逍遥壮士
  • c++STL容器之string容器

    string内部封装了很多内部成员方法,例如find、copy、delete、replace、insert等。

    绝命生
  • 发短信API

    谭广健
  • CentOS 6下安装nodejs 0.9.0

    确保安装了python,大部分安装失败都是由于python版本过低导致。安装之前,升级python版本,升级步骤 http://www.tomtalk.net/...

    张善友
  • ML基础——让人脑壳疼的中文分词算法

    在前文当中,我们介绍了搜索引擎的大致原理。有错过或者不熟悉的同学,可以点击下方的链接回顾一下前文的内容。

    TechFlow-承志

扫码关注云+社区

领取腾讯云代金券