1. Scrapy-Request和Response(请求和响应)
Scrapy的Request和Response对象用于爬网网站。
通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。
sequenceDiagram
爬虫->>Request: 创建
Request->>Response:获取下载数据
Response->>爬虫:数据
2. Request对象
class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])
一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response
- 参数
```
request_with_cookies = Request(url="http://www.sxt.cn/index/login/login.html",)
```
- 使用列表:
request_with_cookies = Request(url="http://www.example.com",
cookies=[{'name': 'currency',
'value': 'USD',
'domain': 'example.com',
'path': '/currency'}])
后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用
request_with_cookies = Request(url="http://www.example.com",
cookies={'currency': 'USD', 'country': 'UY'},
meta={'dont_merge_cookies': True})
将附加数据传递给回调函数
请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数
def parse_page1(self, response):
item = MyItem()
item['main_url'] = response.url
request = scrapy.Request("http://www.example.com/some_page.html",
callback=self.parse_page2)
request.meta['item'] = item
return request
def parse_page2(self, response):
item = response.meta['item']
item['other_url'] = response.url
return item
3 请求子类 FormRequest对象
FormRequest类扩展了Request具有处理HTML表单的功能的基础。它使用lxml.html表单 从Response对象的表单数据预填充表单字段
class scrapy.http.FormRequest(url[, formdata, ...])
本FormRequest类增加了新的构造函数的参数。其余的参数与Request类相同,这里没有记录
该FormRequest对象支持除标准以下类方法Request的方法:
classmethod from_response(response[, formname=None, formid=None, formnumber=0, formdata=None, formxpath=None, formcss=None, clickdata=None, dont_click=False, ...])
返回一个新FormRequest对象,其中的表单字段值已预先`<form>`填充在给定响应中包含的HTML 元素中.
参数:
3.1 请求使用示例
使用FormRequest通过HTTP POST发送数据
如果你想在你的爬虫中模拟HTML表单POST并发送几个键值字段,你可以返回一个FormRequest对象(从你的爬虫)像这样:
return [FormRequest(url="http://www.example.com/post/action",
formdata={'name': 'John Doe', 'age': '27'},
callback=self.after_post)]
使用FormRequest.from_response()来模拟用户登录
网站通常通过元素(例如会话相关数据或认证令牌(用于登录页面))提供预填充的表单字段。进行剪贴时,您需要自动预填充这些字段,并且只覆盖其中的一些,例如用户名和密码。您可以使用 此作业的方法。这里有一个使用它的爬虫示例:
<input type="hidden"> FormRequest.from_response()
import scrapy
class LoginSpider(scrapy.Spider):
name = 'example.com'
start_urls = ['http://www.example.com/users/login.php']
def parse(self, response):
return scrapy.FormRequest.from_response(
response,
formdata={'username': 'john', 'password': 'secret'},
callback=self.after_login
)
def after_login(self, response):
# check login succeed before going on
if "authentication failed" in response.body:
self.logger.error("Login failed")
return
# continue scraping with authenticated session...
4 响应对象
class scrapy.http.Response(url[, status=200, headers=None, body=b'', flags=None, request=None])
一个Response对象表示的HTTP响应,这通常是下载(由下载),并供给到爬虫进行处理
参数:
5 模拟登录
**用的函数:**
**在发送请求时cookie的操作,**
**获取Scrapy框架Cookies**
**样例代码**
`start_requests()`方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求
在发送请求时cookie的操作
`meta={'cookiejar':1}`表示开启cookie记录,首次请求时写在Request()里
`meta={'cookiejar':response.meta['cookiejar']}`表示使用上一次response的cookie,写在Request里post授权
import scrapy
from scrapy import Request
from scrapy import FormRequest
class SxtSpiderSpider(scrapy.Spider):
name = 'sxt1'
allowed_domains = ['sxt.cn']
def start_requests(self):
return [Request('http://www.sxt.cn/index/login/login.html', meta={'cookiejar': 1}, callback=self.parse)]
def parse(self, response):
formdata = {
"user": "17703181473", "password": "123456"
}
return FormRequest( formdata=formdata,
url='http://www.sxt.cn/index/login/login.html',
meta={'cookiejar': response.meta['cookiejar']},
callback=self.login_after)
def login_after(self, response):
yield scrapy.Request('http://www.sxt.cn/index/user.html',
meta={"cookiejar": response.meta['cookiejar']},
callback=self.next)
def next(self,response):
print(response.text)