Python爬虫:煎蛋网全站妹子图

Python爬虫:煎蛋网全站妹子图

爬取流程从煎蛋网妹子图第一页开始抓取;爬取分页标签获得最后一页数字;根据最后一页页数,获得所有页URL;迭代所有页,对页面所有妹子图片url进行抓取;访问图片URL并且保存图片到文件夹。有需要Python学习资料的小伙伴吗?

图中我们可以明确的看到最后一页的数字是94.只要通过这个页面的URL进行抓取就可以得到。

原来94就在这个span标签啊。接下来是不是很简单了:#获得最高页码数allpage=soup.find('span',class_=由于标签内的94边包含一个[],大家不要以为只是一个list,只要[0]就可以获得的。我们完全可以使用type(),看一下他的属性,就知道它是一个字符串,我们利用切片去掉第一个和最后一个字符,就得到了页数了。

我们仍然使用审查元素,找到图片url所在的标签。仍然是老方法,获取到页面所有包含图片的img标签:#css选择器allimgs=soup.select('div.text>p>img')只要一行代码,我们就成功获得所有标签了。这里使用了CSS选择器,大家是否还记得这个方法呢。可以查看之前的文章或者BeautifulSoup的官方文档了解哦。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180922A04EM500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券