学习
实践
活动
专区
工具
TVP
写文章

python突破爬虫动态网页障碍,爬取电影下载地址

还记得在之前一篇python开发电影查询系统(一)—python实现后台数据中,对电影的下载地址无法进行爬取,原因是下载地址在网页源码中无法查看,而是存放在js中,动态加载了。所以在爬取时,我在文章中写道

现在,我们找到了攻破他反爬的方法。下面我来详细介绍一下。

robobrowser库所做的事情就是模拟你真实的浏览器,并可加载动态js页面,从而爬取数据。是不是很牛逼啊。

一、robobrowser库的下载安装。

直接用python的pip安装即可

二、使用方法

安装完成后,使用help查看使用方法。

这里写图片描述

查看每个下载url的源码,借助css选择器,把url的selecter地址复制下来。

这里写图片描述

我们多复制几个看看

发现规律,所有下载地址的selecter地址中都有downlist ,所以我们会有下面代码中处理机制。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180531G1G6IY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券