Python爬虫:煎蛋网全站妹子图
爬取流程从煎蛋网妹子图第一页开始抓取;爬取分页标签获得最后一页数字;根据最后一页页数,获得所有页URL;迭代所有页,对页面所有妹子图片url进行抓取;访问图片URL并且保存图片到文件夹。有需要Python学习资料的小伙伴吗?
图中我们可以明确的看到最后一页的数字是94.只要通过这个页面的URL进行抓取就可以得到。
原来94就在这个span标签啊。接下来是不是很简单了:#获得最高页码数allpage=soup.find('span',class_=由于标签内的94边包含一个[],大家不要以为只是一个list,只要[0]就可以获得的。我们完全可以使用type(),看一下他的属性,就知道它是一个字符串,我们利用切片去掉第一个和最后一个字符,就得到了页数了。
我们仍然使用审查元素,找到图片url所在的标签。仍然是老方法,获取到页面所有包含图片的img标签:#css选择器allimgs=soup.select('div.text>p>img')只要一行代码,我们就成功获得所有标签了。这里使用了CSS选择器,大家是否还记得这个方法呢。可以查看之前的文章或者BeautifulSoup的官方文档了解哦。
领取专属 10元无门槛券
私享最新 技术干货