专栏首页python学习教程爬虫基础练习—python爬虫下载豆瓣妹子图片

爬虫基础练习—python爬虫下载豆瓣妹子图片

下载指定网站上的妹子图片,这里只抓了前100页的图片,可根据需要自己设置页数

cat值为图片类型,大家可以自行更改cat值体验一下,有问题留言给我,看到就会解答

2 = 大胸妹

3 = 美腿控

4 = 有颜值

5 = 大杂烩

6 = 小翘臀

import requests
import re
import time
from bs4 import BeautifulSoup

cat ='2'
img = 'http://www.dbmeinv.com/dbgroup/show.htm?cid='+ cat
end = '/dbgroup/show.htm?cid='+ cat + '&pager_offset=100'
urls = [ ]
def getURLs(mainURL):
    time.sleep(1)
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}
    html = requests.get(mainURL).text
    soup = BeautifulSoup(html, 'html.parser')
    picURL = re.findall('<img class.*?src="(.+?\.jpg)"', html, re.S)
    for url in picURL:
        urls.append(url)
        print(url)
    asoup = soup.select('.next a')[0]['href']
    Next_page = 'http://www.dbmeinv.com' + asoup
    if asoup != end:
        getURLs(Next_page)
    else:
        print('链接已处理完毕!')
    return urls
url = getURLs(img)

i = 0
for each in url:
    pic = requests.get(each, timeout = 10)
    picName = 'pictures/' + str(i) + '.jpg'
    fp = open(picName, 'wb')
    fp.write(pic.content)
    fp.close()
    i += 1

print('图片下载完成')

本文分享自微信公众号 - python教程(pythonjc),作者:小雨

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python学习教程,猜数字游戏开发

    猜数字(又称 Bulls and Cows )是一种古老的的密码破译类益智类小游戏,起源于20世纪中期,一般由两个人或多人玩,也可以由一个人和电脑玩。

    python学习教程
  • Python爬虫学习:抓取电影网站内容的爬虫

    Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,欢迎前来领取...

    python学习教程
  • ​Python程序员因为和女朋友斗图斗输了,一怒之下爬取了网站30页表情包

    *声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜。

    python学习教程
  • 奇怪的编码问题

    今天使用R爬取数据的时候发现一个奇怪的问题,我将每个属性的数据先保存在vector中,然后再合并到data.frame中时,发现打印names时数据正常显示中文...

    用户2936342
  • Django-手撸简易web框架-实现动态网页-wsgiref初识-jinja2初识-python主流web框架对比-00

    原来请求首行的 GET 后面跟的就是请求我们想要信息(/index 首页、/home 家)

    suwanbin
  • PHP实现长网址与短网址

    示例代码下载地址:http://pan.baidu.com/s/1jI9oLxG

    A梦多啦A
  • 硬件描述语言VHDL——元件例化

    版权声明:本文为博主原创文章,转载请注明博客地址: https://blog.csdn.ne...

    zy010101
  • 关于边缘计算和边云协同,看这一篇就够了~

    几年前,大多数人都期望将物联网部署至云端,这的确可以给个人用户带来便捷的使用体验,但构建企业级的物联网解决方案,仍然需要采用云计算和边缘计算的结合方案。与纯粹的...

    边缘计算
  • 关于边缘计算和边云协同,看这一篇就够了~

    几年前,大多数人都期望将物联网部署至云端,这的确可以给个人用户带来便捷的使用体验,但构建企业级的物联网解决方案,仍然需要采用云计算和边缘计算的结合方案。与纯粹的...

    CloudBest
  • 3C的衍生技术简介

    染色质构象捕获技术的发明,使得科学家可以通过实验手段来研究染色质的空间结构。传统的3C技术通量较低,只适用于分析one_vs_one的染色质互作,为了更加高效的...

    生信修炼手册

扫码关注云+社区

领取腾讯云代金券