跟我学爬虫,看大神不到30行代码做的一个简单爬虫!

已经看了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。这次为大家带来,Python爬取校花网美女图片的例子。

首先,校花网大家知道吧,美女一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。

本篇目标

1.抓取校花网美女图片 2.学会正则表达式及其简单应用 3.实现一次爬取多张、多页美女图片并保存到本地。

工具:Windows+pycharm+python2.7

好了废话不多说,我们开始哦

1.确定URL并抓取页面代码

我们先来打开校花网主页:www.xiaohuar.com,我们选择校花排行(要爬美女当然要选排行榜了^_^),然后网站右键选择

审查元素(这里小编用的是极速浏览器,貌似用谷歌的浏览器比较好),小编推荐大家加一下这个群:542110741!大家遇到啥问题都会在里面交流!而且免费分享零基础入门料资料、爬虫资料!是个非常好的学习交流地方!也有程序员大神给大家热心解答各种问题!欲进从速哦!然后呢左上角点击箭头,在点击一张图片,如下图

ok,我们注意蓝色高亮的那行代码,src="http://www.xiaohuar.com/d/file/20140811101923185.jpg"这里就存放了我们要爬取的图片的地址,我们可以多取几行,然后先写下如下代码

注意第18行和其他行得到的网址不一样哦,不过没关系,我们把其他行的主页地址删掉就可以,如下:

替换高清大图

这些呢,就是我们要获取的图片的名字和存储路径了,然后呢,就是用到今天的第二个知识点,正则表达式来匹配图片名字了:img_urls = re.findall(r'/d/file/.*?.jpg',html),这行代码通俗点讲就是查找html(就是上面的源代码)中的所有'/d/file/.*?.jpg',并把其中(.*?)部分的内容赋值给img_urls。

符号的含义如下: “.” =匹配任意字符 “*” =匹配0次或更多 “?” =是非贪婪模式的意思

合起来呢(.*?)就是匹配任意字符到后面的(.)为止,(.)是(.)的意思,在正则表达式里用转义字符标记。

具体正则表达式的内容呢,大家可以自行百度或者观看小编其他的视频,里面有详细解说哦^_^,小编推荐大家加一下这个群:542110741!大家遇到啥问题都会在里面交流!而且免费分享零基础入门料资料、爬虫资料!是个非常好的学习交流地方!也有程序员大神给大家热心解答各种问题!欲进从速哦!我们继续下面的内容,上面呢,我们用正则表达式获取到了图片地址,后面在加一个for循环来获取多个图片地址,并将所有的图片下载到本地(py文件所在目录)

然后运行下看看(很多小姐姐就要来小编的硬盘了,很鸡冻哦^_^)

替换高清大图

完全木有问题,在看看目录

总体来说,还是成功了的^_^

源码奉上

是真的不到20行哦,壮哉我大python!

下面是视频奉上!

视频内容

原文发布于微信公众号 - 云飞学python(P542110741)

原文发表时间:2018-01-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小樱的经验随笔

CTF---Web入门第四题 Forms

Forms分值:10 来源: Ph0enix 难度:易 参与人数:4945人 Get Flag:2776人 答题人数:2824人 解题通过率:98% 似乎有...

350110
来自专栏小樱的经验随笔

BugkuCTF 计算器

前言 写了这么久的web题,算是把它基础部分都刷完了一遍,以下的几天将持续更新BugkuCTF WEB部分的题解,为了不影响阅读,所以每道题的题解都以单独一篇文...

288100
来自专栏iOSDevLog

Unity 3D 开发《王者荣耀》:英雄移动地图英雄

29730
来自专栏点滴积累

geotrellis使用(十)缓冲区分析以及多种类型要素栅格化

目录 前言 缓冲区分析 多种类型要素栅格化 总结 参考链接 一、前言        上两篇文章介绍了如何使用Geotrellis进行矢量数据栅格化以及栅格渲染,...

39280
来自专栏落影的专栏

Audio Unit播放PCM文件

前言 相关文章: 使用VideoToolbox硬编码H.264 使用VideoToolbox硬解码H.264 使用AudioToolbox编码AAC 使...

56260
来自专栏Golang语言社区

Go语言实现控制台贪吃蛇

各位好 今天在关注GO相关文章的时候,看到一篇关于go语言实现贪吃蛇的文章,原文地址:http://outofmemory.cn ;尝试编译了...

49670
来自专栏企鹅号快讯

据说看了这篇文章的小伙伴,都找到前端工作了,不信试试看

# 前端工作面试问题 本文包含了一些用于考查候选者的前端面试问题。不建议对单个候选者问及每个问题 (那需要好几个小时)。只要从列表里挑选一些,就能帮助你考查候选...

29670
来自专栏web前端教室

【蒙圈】自己写的Js,自己不认识了?

但是,下课之前我说,今天的作业,如何如何要求,格式什么样,标明用了多长时间,然后就有同学在学习群里问我,。。原话记不太清了,大概意思就是,自己写的看不明白了,还...

16140
来自专栏守候书阁

大道至简--API设计的美学

对于前端开发而言,肯定会和API打交道,大家也都会想过怎么设计自己的API。优秀的 API 之于代码,就如良好内涵对于每个人。好的 API 不但利于使用者理解,...

19330
来自专栏日常学python

爬取《The Hitchhiker’s Guide to Python!》python进阶书并制成pdf

这是日常学python的第15篇原创文章 前几篇文章我们学习了requests库和正则,还有个urllib库,我上篇文章也用了requests库来教大家去爬那些...

458170

扫码关注云+社区

领取腾讯云代金券