她们不一样!python小白刚学会python竟然爬取了网上所有小姐姐的照片

如今想学python的人越来越多,无论是专业的程序员还是业余爱好者,都对python情有独钟。世界上值得学习的技能有很多,但是如果你要问我推荐哪一个,那么我会推荐一门编程语言,比如python。如今你如果不知道python那就out了(夸张了),可以知道现在python有多火了吧?

最近学完Python,写了几个爬虫练练手,网上的教程有很多,但是有的已经不能爬了,主要是网站经常改,可是爬虫还是有通用的思路的,即下载数据、解析数据、保存数据。下面一一来讲。

1.下载数据

首先打开要爬的网站,分析URL,每打开一个网页看URL有什么变化,有可能带上上个网页的某个数据,例如xxID之类,那么我们就需要在上一个页面分析HTML,找到对应的数据。如果网页源码找不到,可能是ajax异步加载,去xhr里去找。

有的网站做了反爬的处理,可以添加User-Agent :判断浏览器

如果不行,在Chrome上按F12分析请求头、请求体,看需不需要添加别的信息,例如有的网址添加了referer:记住当前网页的来源,那么我们在请求的时候就可以带上。

下载数据的模块有urllib、urllib2及Requests

Requests相比其他俩个的话,支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自 动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码,而且api相对来说也简单,但是requests直接使用不能异步调用,速度慢。

1

html = requests.get(url, headers=headers) #没错,就是这么简单

urllib2以我爬取淘宝的妹子例子来说明:

2.解析数据

解析数据也有很多方式,我只看了beautifulsoup和正则,这个例子是用正则来解析的

正则表达式说明

match:匹配string 开头,成功返回Match object, 失败返回None,只匹配一个。

search:在string中进行搜索,成功返回Match object, 失败返回None, 只匹配一个。

findall:在string中查找所有 匹配成功的组, 即用括号括起来的部分。返回list对象,每个list item是由每个匹配的所有组组成的list。

1).*? 是一个固定的搭配,.和*代表可以匹配任意无限多个字符,加上?表示使用非贪婪模式进行匹配,也就是我们会尽可能短地做匹配

2)(.*?)代表一个分组,如果有5个(.*?)就说明匹配了五个分组

3) 正则表达式中,“.”的作用是匹配除“\n”以外的任何字符,也就是说,它是在一行中进行匹配。这里的“行”是以“\n”进行区分的。HTML标签每行的末尾有一个“\n”,不过它不可见。 如果不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始,不会跨行。而使用re.S参数以后,正则表达式会将这个字符串作为一个整体,将“\n”当做一个普通的字符加入到这个字符串中,在整体中进行匹配。

关于怎么快速学python,有什么方法,这个问题,想必大家都已经心中有数了,打算深入了解这个行业的朋友,可以加下小编的python学习裙:699+749+852,不管你是小白还是大牛,小编我都欢迎,不定期分享干货,包括小编自己整理的一份2018最新的python资料和0基础入门教程,欢迎初学和进阶中的小伙伴。

每天晚上20:00我都会开直播给大家分享python学习知识和路线方法,群里会不定期更新最新的教程和学习方法(进群送2018python学习教程),大家都是学习python的,或是转行,或是大学生,还有工作中想提升自己能力的python党,如果你是正在学习python的小伙伴可以加入学习。最后祝所有程序员都能够走上人生巅峰,让代码将梦想照进现实,非常适合新手学习,有不懂的问题可以随时问我,工作不忙的时候希望可以给大家解惑。

3.保存数据

数据解析后可以保存到文件或数据库中,这个例子是保存到了文件中,很简单,就不做说明了

自学python一般要注意一下几点:

1.最好找一本python相关的书籍,可以去网上看看那本书比较适合初学者。还有就是千万不要贪多,毕竟贪多嚼不烂,先选一本自己能看下去的书,跟着书里面的例子一个个练习,遇到不懂的及时解决,善用搜索引擎。

2.学习过程中将自己不懂的问题都记下来,整理成笔记,可以讲笔记发到论坛上面,回答别人无问题也是学习python的好办法,这个过程相当于温故而知新。

3.最最最最重要的是撸代码!撸代码!撸代码!重要的事情说三遍!只有撸代码才能发现自己有什么问题,不然光看书或者看视频你会产生一种获得知识的快感,然而并没有什么卵用!一开始可以从小项目做起积累成就感,然后由小到大,相信自己!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180606A23SMH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券