用Python批量爬取付费vip数据,竟然如此简单

视频里的承诺,哪怕只有一个粉丝愿意看具体的批量爬取教程,我就会为那一个粉丝更新具体的教程!

首先,我们来看看我们查找资源的网址:http://ibaotu.com/peiyue/11-0-0-91540-0-1.html

然后在浏览器上打开开发者工具(我用的是火狐,审查元素或者按F12就能打开,其他的浏览器也差不多,有问题可以问我)

我们来点击触发一个事件

随后我们会看到一个请求

点击事件之后的请求

同时,我们也获取到了资源的网址,那么下面,我们就开始下载了:

这是第一步,也就是昨天的步骤了

做完这些就已经下载完成了,但距离我们的目标肯定是远远不够的,我们要做的是批量下载VIP付费数据

那么我们接着来分析规律:

查看了几个VIP数据的网址

看了之后,发现我们直接找并不能找到很明显的规律,那么我们只能从刚才查找资源的网站入手了:

查看网站的源代码,然后将其中一个vip资源网址检索,发现是存在这个的,那么我们可以用正则匹配

我们能够找到这个vip资源

好接下来用正则提取:

发现有了结果

好了,既然我们已经把资源的网址提取出来了,那我们不就很轻松的可以下载了吗?但是这样还不够,我们要下载很多很多,全部给下载了,那么我们还要模拟翻页。

这规律很明显吧

最后一页是42页,那么我们就下载到42页。

请点击此处输入图片描述请点击此处输入图片描述看上去是不是很简单呢?如果有什么问题,可以在底下把你的问题说出来,我一定会给你解答,另外如果需要源码,可以留下你的qq或者邮箱,或者私信我都可以,但是我建议不要直接用源码,最好是自己敲一遍,当然,你如果敲了一遍需要用源码来对照一下的话,我还是很乐意的

最后,最重要的一点:喜欢的朋友记得点个关注哦!!!

正在运行中

、我把睡眠时间调的比较长,怕被封ip,当然这样效率就会比较低,那么如果,你想学多线程下载,想学如何使用代理ip,在底下评论留言,如果有人想看,我就会更新接下来的教程!!!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180305A195G500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券