少侠初入江湖,尚不知江湖险恶,入门级别的爬虫很快就被人识破,并对爬虫程序的发起IP地址进行了封锁 WHY?因为少侠不知江湖套路,爬虫程序在网络上直接裸奔,只要是个人都能抓包请求就能查到,不收拾你收拾谁? 为什么少侠就是这么点背,没有开始就出现了结束呢?这一切的一切,都是因为少侠身上一个特殊的身份标记:User-agent: Python-urllib/2.7
User-agent又是个什么东西呢?字面意思:用户代理 用户代理又是个什么东西呢?这事就说来话长了,这得从有了浏览器开始说起这个故事,浏览器作为一个当时流行的应用软件,在一开始的时候就有很多家门派研发,大家发现不同的浏览器兼容的数据展示风格不一样,于是浏览器厂商就互相协商设置了一个特殊的参数User-agent,用来表示自己浏览器的内核信息,方便让服务器返回自己的浏览器能正确识别的数据给用户展示,久而久之,User-agent就称为了浏览器请求特有的身份标记,就类似行走江湖的小少侠见面都要自报师承门派一样
那么少侠的爬虫程序,User-agent是什么呢? 抓包工具抓包,得到如下的请求描述信息:(抓包工具的使用请参考外传)
User-agent: Python-urllib/2.7
常见的各种浏览器的User-agent(其实可以在任意地方搜索一下得到结果) 但是兵马未动,粮草先行,我们先准备好自己需要的资源:
safari 5.1 – MAC
User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
safari 5.1 – Windows
User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
IE 9.0
User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
IE 8.0
User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
IE 7.0
User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
Firefox 4.0.1 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Firefox 4.0.1 – Windows
User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Opera 11.11 – MAC
User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11
Opera 11.11 – Windows
User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11
Chrome 17.0 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11
傲游(Maxthon) User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)
腾讯TT
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)
世界之窗(The World) 2.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
世界之窗(The World) 3.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)
搜狗浏览器 1.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)
360浏览器 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)
Avant
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)
Green Browser
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
**移动设备端:**
safari [iOS](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPhone
User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
safari [ios](https://link.jianshu.com/?t=http://lib.csdn.net/base/ios) 4.33 – iPod Touch
User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
safari iOS 4.33 – iPad
User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
[Android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) N1
User-Agent: Mozilla/5.0 ([Linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; [android](https://link.jianshu.com/?t=http://lib.csdn.net/base/android) 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
Android QQ浏览器 For android
User-Agent: MQQBrowser/26 Mozilla/5.0 ([linux](https://link.jianshu.com/?t=http://lib.csdn.net/base/linux); U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
Android Opera Mobile
User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10
Android Pad Moto Xoom
User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13
BlackBerry
User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+
WebOS HP Touchpad
User-Agent: Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0
Nokia N97
User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124
Windows Phone Mango
User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)
UC无 User-Agent: UCWEB7.0.2.37/28/999
UC标准 User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999
UCOpenwave
User-Agent: Openwave/ UCWEB7.0.2.37/28/999
UC Opera
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999
通过上面User-agent的描述,我们可以看到不同的浏览器版本信息都是通过不同的User-agent直接定义的,只需要将指定的User-agent包含在我们爬虫程序的请求头中,爬虫向网站发起的请求,就被伪装成了浏览器请求
散养的少侠
那么,下面的问题,就是怎么将User-agent信息添加到我们自己的虫虫的请求头中呢? python2.7/urllib2提供了一个请求对象类型urllib2.Request,可以很方便的进行请求中各种类型数据的操作,诸如请求头、请求参数等等都可以很方便的进行操作
接下来,给我们的爬虫,伪造一个请求头,让服务器不再当成一个爬虫屏蔽我们的访问,这里就要用到urllib2中的Request对象了 我们的代码工作目录:/home/damu/work_spider/spider_01/ 目录下创建爬虫程序:demo02_request.py
# coding:utf-8
from urllib2 import urlopen
from urllib2 import Request
# 定义目标url地址和请求头设置
url = “[http://www.sina.com.cn](http://www.sina.com.cn/)”
headers = {
‘User-agent’: ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0’
}
# 使用url地址和请求头构建一个请求对象
requset = Request(url, headers=headers)
# 向服务器发送请求,采集服务器返回数据
response = urlopen(request)
# 打印展示数据
print(response.read())
此时,初入江湖的少侠可是携带了门派令牌(User-agent),不再是散养的江湖散人任人欺负了,数据采集不会再因为身份信息敏感而被拒之门外了
小结:urllib2.Request是爬虫模块中操作的请求对象,通过请求对象可以完成对请求中各种数据配置的设置,如请求地址、请求头信息、请求参数、请求路径、请求方式等等,Python2内置爬虫模块本身提供的操作方式中,这个对象是最核心的对象之一