前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫正传-江湖路远-0102-少侠师承何处

爬虫正传-江湖路远-0102-少侠师承何处

作者头像
大牧莫邪
发布2018-08-27 16:46:14
6390
发布2018-08-27 16:46:14
举报
文章被收录于专栏:我和PYTHON有个约会

少侠初入江湖,尚不知江湖险恶,入门级别的爬虫很快就被人识破,并对爬虫程序的发起IP地址进行了封锁 WHY?因为少侠不知江湖套路,爬虫程序在网络上直接裸奔,只要是个人都能抓包请求就能查到,不收拾你收拾谁? 为什么少侠就是这么点背,没有开始就出现了结束呢?这一切的一切,都是因为少侠身上一个特殊的身份标记:User-agent: Python-urllib/2.7

User-agent又是个什么东西呢?字面意思:用户代理 用户代理又是个什么东西呢?这事就说来话长了,这得从有了浏览器开始说起这个故事,浏览器作为一个当时流行的应用软件,在一开始的时候就有很多家门派研发,大家发现不同的浏览器兼容的数据展示风格不一样,于是浏览器厂商就互相协商设置了一个特殊的参数User-agent,用来表示自己浏览器的内核信息,方便让服务器返回自己的浏览器能正确识别的数据给用户展示,久而久之,User-agent就称为了浏览器请求特有的身份标记,就类似行走江湖的小少侠见面都要自报师承门派一样

那么少侠的爬虫程序,User-agent是什么呢? 抓包工具抓包,得到如下的请求描述信息:(抓包工具的使用请参考外传)

代码语言:javascript
复制
User-agent: Python-urllib/2.7

常见的各种浏览器的User-agent(其实可以在任意地方搜索一下得到结果) 但是兵马未动,粮草先行,我们先准备好自己需要的资源:

代码语言:javascript
复制
safari 5.1 – MAC
User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

safari 5.1 – Windows
User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50

IE 9.0
User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;

IE 8.0
User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)

IE 7.0
User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)

Firefox 4.0.1 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Firefox 4.0.1 – Windows
User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Opera 11.11 – MAC
User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11

Opera 11.11 – Windows
User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11

Chrome 17.0 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11

傲游(Maxthon) User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)

腾讯TT
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)

世界之窗(The World) 2.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

世界之窗(The World) 3.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)

搜狗浏览器 1.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)

360浏览器 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)

Avant
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)

Green Browser
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

**移动设备端:**

safari [iOS](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPhone
User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

safari [ios](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPod Touch
User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

safari iOS 4.33 – iPad
User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5

[Android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) N1
User-Agent: Mozilla/5.0 ([Linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; [android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

Android QQ浏览器 For android
User-Agent: MQQBrowser/26 Mozilla/5.0 ([linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

Android Opera Mobile
User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10

Android Pad Moto Xoom
User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13

BlackBerry
User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+

WebOS HP Touchpad
User-Agent: Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0

Nokia N97
User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124

Windows Phone Mango
User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)

UC无 User-Agent: UCWEB7.0.2.37/28/999

UC标准 User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999

UCOpenwave
User-Agent: Openwave/ UCWEB7.0.2.37/28/999

UC Opera
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999

通过上面User-agent的描述,我们可以看到不同的浏览器版本信息都是通过不同的User-agent直接定义的,只需要将指定的User-agent包含在我们爬虫程序的请求头中,爬虫向网站发起的请求,就被伪装成了浏览器请求

散养的少侠

那么,下面的问题,就是怎么将User-agent信息添加到我们自己的虫虫的请求头中呢? python2.7/urllib2提供了一个请求对象类型urllib2.Request,可以很方便的进行请求中各种类型数据的操作,诸如请求头、请求参数等等都可以很方便的进行操作

接下来,给我们的爬虫,伪造一个请求头,让服务器不再当成一个爬虫屏蔽我们的访问,这里就要用到urllib2中的Request对象了 我们的代码工作目录:/home/damu/work_spider/spider_01/ 目录下创建爬虫程序:demo02_request.py

代码语言:javascript
复制
# coding:utf-8 

from urllib2 import urlopen

from urllib2 import Request

# 定义目标url地址和请求头设置

url = “[http://www.sina.com.cn](http://www.sina.com.cn/)”

headers = {

    ‘User-agent’: ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0’

}

# 使用url地址和请求头构建一个请求对象

requset = Request(url, headers=headers)

# 向服务器发送请求,采集服务器返回数据

response = urlopen(request)

# 打印展示数据

print(response.read())

此时,初入江湖的少侠可是携带了门派令牌(User-agent),不再是散养的江湖散人任人欺负了,数据采集不会再因为身份信息敏感而被拒之门外了

小结:urllib2.Request是爬虫模块中操作的请求对象,通过请求对象可以完成对请求中各种数据配置的设置,如请求地址、请求头信息、请求参数、请求路径、请求方式等等,Python2内置爬虫模块本身提供的操作方式中,这个对象是最核心的对象之一

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.05.13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档