这是爬虫的第一部分,对于python基础与网络编程部分重点突出,主要以每次小项目为主;更新时间不定,随缘之人,缘分到了,文章就出来了。
简单说下这次练手的小东西想法:在暑假的时候,看见自己的电脑壁纸有点。。。。,LOW,所以想着做一个WIN下的壁纸切换小程序。这次只是图片提取部分,话不多说来看看代码。
第一步:查看网页源代码(F12
/右击审查元素),查看每个组图间、组图下的图片之间的关系。
可以看到该缩略图多对应的有href
下的组图链接,以及自己本身的的链接,后缀为JPG
,或者鼠标放上去可以看到相关的图片。
点进组图,再查看每个图片的URL结构。如下:
可以看到URL结构与组图相似,点击下一页,URL自动变化(URL后5个参数发生变化),没办法找到相关的规律,可能我比较菜。。。。
找到NetWork
下的网页源代码,这个是没有任何渲染源代码,
我们找到这个:
发现规律了吗?有思路的可以试试。
然后我们写的代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# author:albert time:2019/7/8
import requests
from lxml import etree
from random import randint
a = []
# 每个组图的url
def This_Mosaic_Url():
req = requests.get('http://desk.zol.com.cn/1920x1200/').text
html = etree.HTML(req)
url = html.xpath("//div//li[@class='photo-list-padding']//a/@href")
for i in url:
url_list = 'http://desk.zol.com.cn' + i
a.append(url_list)
def list_randan():
it= iter(a)
# print(next(it))
return next(it)
# 每个组图下的所有图片
def img_picture():
# 第一个url===>"http://desk.zol.com.cn/bizhi/7590_94212_2.html"
list = [a[0]]
while True:
url_1 = 'http://desk.zol.com.cn'
req = requests.get(list[-1],timeout=3).text
html = etree.HTML(req)
url_detail = ''.join(html.xpath("//div[@class='photo-next prev-next']//a/@href"))
if url_detail == 'javascript:;':
try:
for i in range(15):
href = list_randan()
list.append(href)
except:
pass
else:
url = url_1 + url_detail
list.append(url)
print(len(list))
for x in list:
print(x)
if __name__ == '__main__':
This_Mosaic_Url()
img_picture()
这是以上实现的思路,如果有什么疑问欢迎在下面留言!
鸡汤:学习不是三分钟的热血,而是一辈子所为之努力的,加油吧,骚年!