前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ZOL桌面壁纸的提取

ZOL桌面壁纸的提取

作者头像
xbhog
发布2019-09-08 14:32:30
6940
发布2019-09-08 14:32:30
举报
文章被收录于专栏:开发技能乱炖

这是爬虫的第一部分,对于python基础与网络编程部分重点突出,主要以每次小项目为主;更新时间不定,随缘之人,缘分到了,文章就出来了。

简单说下这次练手的小东西想法:在暑假的时候,看见自己的电脑壁纸有点。。。。,LOW,所以想着做一个WIN下的壁纸切换小程序。这次只是图片提取部分,话不多说来看看代码。

第一步:查看网页源代码(F12/右击审查元素),查看每个组图间、组图下的图片之间的关系。

在这里插入图片描述
在这里插入图片描述

可以看到该缩略图多对应的有href下的组图链接,以及自己本身的的链接,后缀为JPG,或者鼠标放上去可以看到相关的图片。

点进组图,再查看每个图片的URL结构。如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可以看到URL结构与组图相似,点击下一页,URL自动变化(URL后5个参数发生变化),没办法找到相关的规律,可能我比较菜。。。。

找到NetWork下的网页源代码,这个是没有任何渲染源代码,

在这里插入图片描述
在这里插入图片描述

我们找到这个:

在这里插入图片描述
在这里插入图片描述

发现规律了吗?有思路的可以试试。

然后我们写的代码如下:

代码语言:javascript
复制
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# author:albert time:2019/7/8
import  requests
from lxml import etree
from random import  randint


a = []

# 每个组图的url
def This_Mosaic_Url():
    req = requests.get('http://desk.zol.com.cn/1920x1200/').text
    html = etree.HTML(req)
    url = html.xpath("//div//li[@class='photo-list-padding']//a/@href")
    for i in url:
        url_list = 'http://desk.zol.com.cn' + i
        a.append(url_list)

def list_randan():
    it= iter(a)
    # print(next(it))
    return  next(it)

# 每个组图下的所有图片
def img_picture():
    # 第一个url===>"http://desk.zol.com.cn/bizhi/7590_94212_2.html"
    list = [a[0]]

    while True:
        url_1 = 'http://desk.zol.com.cn'
        req = requests.get(list[-1],timeout=3).text
        html = etree.HTML(req)

        url_detail = ''.join(html.xpath("//div[@class='photo-next prev-next']//a/@href"))
        if url_detail == 'javascript:;':
            try:
                for i in range(15):
                    href = list_randan()
                    list.append(href)
            except:
                pass
        else:
            url = url_1 + url_detail
            list.append(url)

    print(len(list))
    for x in list:
        print(x)

if __name__ == '__main__':
    This_Mosaic_Url()
    img_picture()

这是以上实现的思路,如果有什么疑问欢迎在下面留言!

鸡汤:学习不是三分钟的热血,而是一辈子所为之努力的,加油吧,骚年!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年07月09日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CloudBase
云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档