首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫初体验:爬取学校网站所有图片

老大爷有个师姐玩爬虫很6,于是便想着跟师姐学习学习,和师姐说明了来意,随即扔了本书,告诉我可以先试着把学校官网全站的所有图片爬下来,于是就做了这么一个有趣的事情

整个的爬取过程中主要用了Requests库和BeautifulSoup库,当然正则表达式也是必不可缺的咯。

回过头来看整个过程其实非常简单,主要通过三个方法就可以完成。

第一步当然是通过主站递归获取所有链接地址,因为还有一些其他的外链,所以需要用正则表达式判断一下排除掉,不然要无穷尽也咯

第二步就是把已经获取到的网址解析一下,获得页面图片的URL链接

最后一步就非常简单了,通过URL保存图片,当然图片肯定是要用二进制保存了,一个简单的response.content()就可以搞定

在做这个任务之前,觉得好难啊,但是做完之后发现还是很简单的,当然这只是静态页面了,动态页面本宝宝还需要再继续学习,爬虫也确实是个挺有趣的事情。

总结:1.用requests库发送网络请求,获取response对象

2.利用BeautifulSoup库来解析页面

3.利用正则表达式re库来判断资源链接

4.利用os系统模块来确认文件路径问题

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180908G16TOT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券