专栏首页技术探究-前端、Python、爬虫、数据分析、工具爬虫系列(14)Scrapy 框架-模拟登录-Request、Response。

爬虫系列(14)Scrapy 框架-模拟登录-Request、Response。

1. Scrapy-Request和Response(请求和响应)

Scrapy的Request和Response对象用于爬网网站。

通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。

sequenceDiagram
爬虫->>Request: 创建
Request->>Response:获取下载数据
Response->>爬虫:数据

2. Request对象

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response

- 参数

  • - url(string) - 此请求的网址
  • - callback(callable) - 将使用此请求的响应(一旦下载)作为其第一个参数调用的函数。有关更多信息,请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调,parse()将使用spider的 方法。请注意,如果在处理期间引发异常,则会调用errback。
  • - method(string) - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等,且保证字符串大写
  • - meta(dict) - 属性的初始值Request.meta,在不同的请求之间传递数据使用
  • - body(str或unicode) - 请求体。如果unicode传递了a,那么它被编码为 str使用传递的编码(默认为utf-8)。如果 body没有给出,则存储一个空字符串。不管这个参数的类型,存储的最终值将是一个str(不会是unicode或None)。
  • - headers(dict) - 这个请求的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)。如果 None作为值传递,则不会发送HTTP头.一般不需要
  • - encoding: 使用默认的 'utf-8' 就行。
  • - cookie(dict或list) - 请求cookie。这些可以以两种形式发送。
    • - 使用dict:
```
  request_with_cookies = Request(url="http://www.sxt.cn/index/login/login.html",)
  ```

- 使用列表:

request_with_cookies = Request(url="http://www.example.com",
                                 cookies=[{'name': 'currency',
                                          'value': 'USD',
                                          'domain': 'example.com',
                                          'path': '/currency'}])

后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用

request_with_cookies = Request(url="http://www.example.com",
                               cookies={'currency': 'USD', 'country': 'UY'},
                               meta={'dont_merge_cookies': True})

将附加数据传递给回调函数

请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数

def parse_page1(self, response):
    item = MyItem()
    item['main_url'] = response.url
    request = scrapy.Request("http://www.example.com/some_page.html",
                             callback=self.parse_page2)
    request.meta['item'] = item
    return request


def parse_page2(self, response):
    item = response.meta['item']
    item['other_url'] = response.url
    return item

3 请求子类 FormRequest对象

FormRequest类扩展了Request具有处理HTML表单的功能的基础。它使用lxml.html表单 从Response对象的表单数据预填充表单字段

class scrapy.http.FormRequest(url[, formdata, ...])

本FormRequest类增加了新的构造函数的参数。其余的参数与Request类相同,这里没有记录

  • 参数:formdata(元组的dict或iterable) - 是一个包含HTML Form数据的字典(或(key,value)元组的迭代),它将被url编码并分配给请求的主体。

该FormRequest对象支持除标准以下类方法Request的方法:

classmethod from_response(response[, formname=None, formid=None, formnumber=0, formdata=None, formxpath=None, formcss=None, clickdata=None, dont_click=False, ...])

返回一个新FormRequest对象,其中的表单字段值已预先`<form>`填充在给定响应中包含的HTML 元素中.

参数:

  • - response(Responseobject) - 包含将用于预填充表单字段的HTML表单的响应
  • - formname(string) - 如果给定,将使用name属性设置为此值的形式
  • - formid(string) - 如果给定,将使用id属性设置为此值的形式
  • - formxpath(string) - 如果给定,将使用匹配xpath的第一个表单
  • - formcss(string) - 如果给定,将使用匹配css选择器的第一个形式
  • - formnumber(integer) - 当响应包含多个表单时要使用的表单的数量。第一个(也是默认)是0
  • - formdata(dict) - 要在表单数据中覆盖的字段。如果响应元素中已存在字段,则其值将被在此参数中传递的值覆盖
  • - clickdata(dict) - 查找控件被点击的属性。如果没有提供,表单数据将被提交,模拟第一个可点击元素的点击。除了html属性,控件可以通过其相对于表单中其他提交表输入的基于零的索引,通过nr属性来标识
  • - dont_click(boolean) - 如果为True,表单数据将在不点击任何元素的情况下提交

3.1 请求使用示例

使用FormRequest通过HTTP POST发送数据

如果你想在你的爬虫中模拟HTML表单POST并发送几个键值字段,你可以返回一个FormRequest对象(从你的爬虫)像这样:

return [FormRequest(url="http://www.example.com/post/action",
                    formdata={'name': 'John Doe', 'age': '27'},
                    callback=self.after_post)]

使用FormRequest.from_response()来模拟用户登录

网站通常通过元素(例如会话相关数据或认证令牌(用于登录页面))提供预填充的表单字段。进行剪贴时,您需要自动预填充这些字段,并且只覆盖其中的一些,例如用户名和密码。您可以使用 此作业的方法。这里有一个使用它的爬虫示例:

<input type="hidden"> FormRequest.from_response()
import scrapy


class LoginSpider(scrapy.Spider):
    name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']


    def parse(self, response):
        return scrapy.FormRequest.from_response(
            response,
            formdata={'username': 'john', 'password': 'secret'},
            callback=self.after_login
        )


    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.logger.error("Login failed")
            return


        # continue scraping with authenticated session...

4 响应对象

class scrapy.http.Response(url[, status=200, headers=None, body=b'', flags=None, request=None])

一个Response对象表示的HTTP响应,这通常是下载(由下载),并供给到爬虫进行处理

参数:

  • - url(string) - 此响应的URL
  • - status(integer) - 响应的HTTP状态。默认为200
  • - headers(dict) - 这个响应的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)
  • - body(str) - 响应体。它必须是str,而不是unicode,除非你使用一个编码感知响应子类,如 TextResponse
  • - flags(list) - 是一个包含属性初始值的 Response.flags列表。如果给定,列表将被浅复制
  • - request(Requestobject) - 属性的初始值Response.request。这代表Request生成此响应

5 模拟登录

**用的函数:**

  • - start_requests()可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求
  • - Request()get请求,可以设置,url、cookie、回调函数
  • - FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其他参数,cookie、url、表单内容等
  • - yield Request()可以将一个新的请求返回给爬虫执行

**在发送请求时cookie的操作,**

  • - meta={'cookiejar':1}表示开启cookie记录,首次请求时写在Request()里
  • - meta={'cookiejar':response.meta['cookiejar']}表示使用上一次response的cookie,写在FormRequest.from_response()里post授权
  • - meta={'cookiejar':True}表示使用授权后的cookie访问需要登录查看的页面

**获取Scrapy框架Cookies**

**样例代码**

`start_requests()`方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求

在发送请求时cookie的操作

`meta={'cookiejar':1}`表示开启cookie记录,首次请求时写在Request()里

`meta={'cookiejar':response.meta['cookiejar']}`表示使用上一次response的cookie,写在Request里post授权

import scrapy
from scrapy import Request
from scrapy import FormRequest




class SxtSpiderSpider(scrapy.Spider):
    name = 'sxt1'
    allowed_domains = ['sxt.cn']


    def start_requests(self):
        return [Request('http://www.sxt.cn/index/login/login.html', meta={'cookiejar': 1}, callback=self.parse)]


    def parse(self, response):
        formdata = {
            "user": "17703181473", "password": "123456"
        }
        return FormRequest(                                        formdata=formdata,
                                        url='http://www.sxt.cn/index/login/login.html',
                                        meta={'cookiejar': response.meta['cookiejar']},
                                        callback=self.login_after)


    def login_after(self, response):
        yield scrapy.Request('http://www.sxt.cn/index/user.html',
                             meta={"cookiejar": response.meta['cookiejar']},
                             callback=self.next)
    def next(self,response):
        print(response.text)

本文分享自微信公众号 - 离不开的网(Gy_dxj)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 爬虫实践 | 维基百科深度优先与广度优先的开展

    本爬虫目标为爬取维基百科上词条的链接,注意一点,在运行爬虫时注意不要过快,过频密的请求爬取维基百科网页,以免对服务器产生大量负荷。

    小Gy
  • Hexo + Gitee 搭建个人博客

    其实,如果你要求不高,我们再把它部署到码云(gitee)上,现在也可以说是完成了。

    小Gy
  • 爬虫系列(10)Scrapy 框架介绍、安装以及使用。

    运行命令:scrapy startproject myfrist(your_project_name)

    小Gy
  • 使用代码获得Hybris Commerce里显示的产品图片

    https://<host>:9002/rest/v2/electronics/products/300938?fields=FULL

    Jerry Wang
  • 使用ant design开发完整的后台系统

    这里要说的是ant design的vue版和react版本的使用。这里不考虑到两种框架vue和react的底层。

    嘉明
  • Fortran知识 | 跳出多层循环

    当一个程序出现多层循环,对coder们来说这无疑是讨厌的,尤其是要跳出某一层循环就更加崩溃了,面对那么多的do-end do,怎么跳?到底怎么跳? Fortra...

    fem178
  • 数据猿专访 | QuestMobile副总裁段林峰:大数据如何能做到打破APP孤岛?

    <数据猿导读> 根据QuestMobile的数据显示,过去一年,中国移动端月度活跃设备数的环比增长只保持在1%左右,且在继续下滑。然而,全国每月仍有超过6万款新...

    数据猿
  • 你知道Windows和WordPress上帝模式吗?

    一、Windows 上帝模式 这个玩意出来很久很久了,估计不用多说,知道的同学还是挺多的,不知道的也只要百度一下,你就知道了。 方法很简单,在 Windows ...

    张戈
  • express模块require路径相关问题

     node_modules文件夹并不一定在同级目录里面,在任何直接祖先级目录中,都可以。甚至可以放到NODE_PATH环境变量的文件夹中。这样做的好处稍后你将知...

    十月梦想
  • 基于红黑树的TreeMap使用

    最近在项目中做异步任务调度服务的时候,用到红黑树来实现异步任务的管理,挑选出最符合条件的任务执行,于是使用到了TreeMap来管理

    None_Ling

扫码关注云+社区

领取腾讯云代金券