前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫(110)一文使你成为终身斗图帝

爬虫(110)一文使你成为终身斗图帝

作者头像
公众号---人生代码
发布2020-05-17 21:41:51
2080
发布2020-05-17 21:41:51
举报
文章被收录于专栏:人生代码人生代码

一文使你成为终身斗图帝,以后妈妈终于不用担心我没图跟别人斗图了,你说我秀不秀,这波操作实在是羡煞旁人啊,以后微信群斗图,就不用偷别人的图

下班闲来无聊,来一波斗图呗,同样我们进入斗图官网,

https://www.doutula.com/article/list

我们 f12 一下,并且刷新一下页面,可以看到以下 list

我们先把这个 user-agents 扒下来

代码语言:javascript
复制
header={
  'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36",
}

我们随便点进去一张图,看到详情页,我们需要表情包的 title,页面链接如

https://www.doutula.com/article/detail/4531369

导入常用包

代码语言:javascript
复制
import random
import requests
from bs4 import BeautifulSoup
import urllib
import os

我们暂时就爬第一页和第二页

代码语言:javascript
复制
BASE_URL = 'https://www.doutula.com/photo/list/?page='
URL_LIST = []
for x in range(1, 2):
    REAL_URL = BASE_URL+str(x)
    URL_LIST.append(REAL_URL)

主要的爬虫代码

代码语言:javascript
复制
def get_url(url):
    my_headers = [
        "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
        "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
    ]
    header = {
        "User-Agent": random.choice(my_headers)
    }
    re = requests.get(url, headers=header) # 获取DOM 文档
    soup = BeautifulSoup(re.content, "lxml") # 使用 lxml 解析内容
    IMG_LIST = soup.find_all('img', 'img-responsive lazy image_dta') # 找到图片所在位置
    num=1
    for img in IMG_LIST:
        imgurl = img['data-original']
        
        pic=requests.get(imgurl,headers=header).content
        with open('./doutufile/'+str(num)+'.jpg','wb')as f:
            f.write(pic)
            num=num+1

爬取成功了,给大家看看图吧

好了,祝贺你早日成为斗图

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CryptoCode 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档