爬虫初体验：爬取学校网站所有图片

文章来源：企鹅号 - 并没有远方的日常

老大爷有个师姐玩爬虫很6，于是便想着跟师姐学习学习，和师姐说明了来意，随即扔了本书，告诉我可以先试着把学校官网全站的所有图片爬下来，于是就做了这么一个有趣的事情

整个的爬取过程中主要用了Requests库和BeautifulSoup库，当然正则表达式也是必不可缺的咯。

回过头来看整个过程其实非常简单，主要通过三个方法就可以完成。

第一步当然是通过主站递归获取所有链接地址，因为还有一些其他的外链，所以需要用正则表达式判断一下排除掉，不然要无穷尽也咯

第二步就是把已经获取到的网址解析一下，获得页面图片的URL链接

最后一步就非常简单了，通过URL保存图片，当然图片肯定是要用二进制保存了，一个简单的response.content()就可以搞定

在做这个任务之前，觉得好难啊，但是做完之后发现还是很简单的，当然这只是静态页面了，动态页面本宝宝还需要再继续学习，爬虫也确实是个挺有趣的事情。

总结：1.用requests库发送网络请求，获取response对象

2.利用BeautifulSoup库来解析页面

3.利用正则表达式re库来判断资源链接

4.利用os系统模块来确认文件路径问题

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货