前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Python批量爬取并下载具有防盗链保护的文件

使用Python批量爬取并下载具有防盗链保护的文件

作者头像
Python小屋屋主
发布2019-06-04 15:59:02
1.6K1
发布2019-06-04 15:59:02
举报
文章被收录于专栏:Python小屋Python小屋

封面图片:《Python程序设计实验指导书》,董付国编著,清华大学出版社

=================

第一步:确定要爬取的目标页面,以http://jwc.sdtbu.edu.cn/info/2002/5418.htm为例,使用浏览器打开,如下:

第二步:分析网页源代码,得到要下载的文件链接地址,如图:

第三步:编写代码,尝试直接获取文件地址并下载,出错,因为该网站有反爬设置,如图:

第四步:参考Python使用标准库urllib模拟浏览器爬取网页内容文中的描述,修改代码,模拟浏览器,如图:

运行代码下载到的文件:

打开下载后的文件,内容如下,这说明网站有防盗链功能:

第五步:继续修改代码,假装是使用浏览器从页面正常下载,完整代码如下:

下载的文件可以正常打开:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档