开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

python突破爬虫动态网页障碍，爬取电影下载地址

文章来源：企鹅号 - MTbaby

还记得在之前一篇python开发电影查询系统（一）—python实现后台数据中，对电影的下载地址无法进行爬取，原因是下载地址在网页源码中无法查看，而是存放在js中，动态加载了。所以在爬取时，我在文章中写道

现在，我们找到了攻破他反爬的方法。下面我来详细介绍一下。

robobrowser库所做的事情就是模拟你真实的浏览器，并可加载动态js页面，从而爬取数据。是不是很牛逼啊。

一、robobrowser库的下载安装。

直接用python的pip安装即可

二、使用方法

安装完成后，使用help查看使用方法。

这里写图片描述

查看每个下载url的源码，借助css选择器，把url的selecter地址复制下来。

这里写图片描述

我们多复制几个看看

发现规律，所有下载地址的selecter地址中都有downlist ，所以我们会有下面代码中处理机制。

发表于: 2018-05-312018-05-31 18:00:22
原文链接：https://kuaibao.qq.com/s/20180531G1G6IY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯