爬虫课堂(十五)|Request和Response(请求和响应)

Scrapy的Request和Response对象用于爬网网站,在介绍Scrapy框架原理之前先具体讲解下Request和Response对象。

通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序,如下图15-1所示。

图15-1

一、Request对象

一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response,它的构造器方法的参数列表如下:

Request(url[, callback, method='GET',headers,body,cookies,meta,encoding='utf-8',priority=0,dont_filter=False,errback])

下面依次介绍这些参数。

1、url(bytest或str类型,必选) 

此请求的网址。

2、callback(Callable类型)

Request对象请求的页面下载完成后,由该参数指定的页面解析函数被调用。如果请求未传递该参数,默认调用Spider的parse()方法。请注意,如果在处理期间引发异常,则会调用errback(见下方)。

3、method(str类型)

此请求的HTTP方法,默认为’GET’。

4、meta(dict类型)

Request的元数据字典,用于给下一个函数传递信息。把需要传递的信息赋值给这个叫meta的变量,meta只接受字典类型的赋值,把待传递的信息改成“字典”的形式,即:meta={'key1':value1,'key2':value2},如果想在下一个函数中取出value1,只需得到上一个函数的meta['key1']即可,因为meta是随着Request产生时传递的,下一个函数得到的Response对象中就会有meta,即response.meta,取value1则是value1=response.meta['key1']。

5、body(bytest或str类型)

HTTP的请求体。如果 body没有给出,则存储一个空字符串。

6、headers(dict类型)

这个请求的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)。如果 None作为值传递,则不会发送HTTP头。比如{'Cookie':None'}表示禁止发送Cookie

7、cookie(dict或list类型)

请求cookie。

8、encoding(str类型)

此请求的编码(默认为’utf-8’),此编码将用于对URL进行百分比编码,并将正文转换为str(如果给定unicode)。

9、priority(int类型)

此请求的优先级(默认为0)。调度器使用优先级来定义用于处理请求的顺序。具有较高优先级值的请求将较早执行。允许负值以指示相对低优先级。

10、dont_filter(boolean类型)

表示此请求不应由调度程序过滤。当您想要多次执行相同的请求时忽略重复过滤器时使用。小心使用它,或者你会进入爬行循环。默认为False。

11、errback(callable类型)

如果在处理请求时引发任何异常,将调用的函数。这包括失败的404 HTTP错误等页面。它接收一个Twisted Failure实例作为第一个参数。有关更多信息,请参阅使用errbacks在请求处理中捕获异常。

虽然参数很多,但除了url参数之外,其他都有默认值。一般情况下,我们只需要设置url和callback参数,代码如下:

scrapy.Request("https://www.baidu.com/",callback=self.parse_page2)

当然,在处理一些反爬问题时我们会设置其他的值,这个在后面章节详解。

二、Response对象

一个Response对象表示一个HTTP响应,Response只是一个基类,根据响应内容的不同有不同的子类:TextResponse、HtmlResponse、XmlResponse。

它的构造器方法的参数列表如下:

Response(url[, status=200, headers=None, body=b'', flags=None, request])

1、url(str类型)

HTTP响应的URL。

2、status(int类型)

响应的HTTP状态,默认为200。

3、headers(dict类型)

HTTP响应的头部,dict值可以是字符串(对于单值标头)或列表(对于多值标头),可以调用get或getlist方法进行访问,如下:

 response.headers.get('Content-Type')
 response.headers.getlist('Set-Cookie')

4、body(bytes类型)

HTTP响应体,如TextResponse。

5、flags(list类型)

是一个包含属性初始值的 Response.flags列表。

6、request(Requestobject类型)

属性的初始值Response.request,这代表Request生成此响应。

三、Response响应子类

前面提到过,根据响应内容的不同有不同的子类,包括TextResponse、HtmlResponse、XmlResponse。下面以TextResponse为例详情讲解下它更多的参数。

1、TextResponse对象

class scrapy.http.TextResponse(url[, encoding[, ...]])

TextResponse除了标准对象之外,对象还支持以下属性:

text

响应体,如unicode。

同样response.body.decode(response.encoding),但结果是在第一次调用后缓存,因此可以访问 response.text多次,无需额外的开销。

注意:unicode(response.body)不是一个正确的方法来将响应正文体转换为unicode,而是使用系统默认编码(通常为ascii)。

encoding

包含此响应的编码的字符串。

selector

Selector对象用于在Response中提取数据,具体更加详细的内容会在后面的章节讲解。

xpath(query)

使用XPath选择器在Response中提取数据,更多内容访问爬虫课程(八)|豆瓣:十分钟学会使用XPath选择器提取需要的元素值

css(query)

使用CSS选择器在Response中提取数据,它的快捷方式为

TextResponse.selector.css(query):response.css('p')

具体更加详细的内容会在后面的章节讲解。

urljoin(url)

用于构造绝对url,当传入的url参数是一个相对地址,根据response.url计算出相应的绝对url。比如,response.url为https://www.jianshu.com/,url为p/5d19b49755f0,使用response.urljoin(url)的结果就是https://www.jianshu.com/p/5d19b49755f0。

简写为response.urljoin(url),实际上是response.urljoin(response.url, url)

同样的,Response参数也有很多,但在爬虫中使用最多的主要是最后的三个:xpath(query)、css(query) 和urljoin(url)。

实际上,这三个参数在前面的实战章节中已经使用过,现在是做一个整体回顾和整理。

四、后话

现在有了这些基础,接下来要讲的就是Scrapy的框架结构及工作原理。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大内老A

ASP.NET Core的配置(4):多样性的配置来源[上篇]

较之传统通过App.config和Web.config这两个XML文件承载的配置系统,ASP.NET Core采用的这个全新的配置模型的最大一个优势就是针对多种...

2016
来自专栏云计算教程系列

如何使用Grep

Grep是一个命令行实用程序,可以使用常见的正则表达式语法搜索和过滤文本。它无处不在,动词“to grep”已经成为“搜索”的同义词。它grep是一个有用的工具...

1073
来自专栏余林丰

虚拟机类加载机制(2)——类加载器

《深入理解Java虚拟机》一书中将类的加载过程放到了类加载器前面一节,但在这里我想先讲“类加载器”。在上一篇类加载时机中我们用大量篇幅来讲解了类加载过程中的5个...

2126
来自专栏Java编程技术

一个有关定时生产与消费的问题

按照上面的逻辑看的话,每个队列里面最多有一个元素。其实不然,因为在多线程模型中每个线程占用cpu执行的时间是按照时间片来划分的,每个线程执行完自己的时间片后会被...

791
来自专栏Jimoer

JVM学习记录-线程安全与锁优化(一)

线程:程序流执行的最小单元。线程是比进程更轻量级的调度执行单位,线程的引入,可以把一个进程的资源分配和执行调度分开,各个线程既可以共享进程资源(内存地址、文件I...

682
来自专栏李家的小酒馆

Redis-Nosql数据库入门

简介 Redis是Nosql数据库的一种,可基于内存亦可持久化的日志型、是一个Key-Value数据库,多用在缓存方面 安装 Windows 下载地址, 最...

2290
来自专栏Python自动化测试

Jmeter4.0接口测试之断言实战(六)

在接口测试用例中得有断言,没有断言的接口用例是无效的,一个接口的断言有三个层面,一个是HTTP状态码的断言,另外一个是业务状态码的断言,最后是某一接口请求后服...

5264
来自专栏Python

django:DateTimeField如何自动设置为当前时间并且能被修改 ——django日期时间字段的使用

创建django的model时,有DateTimeField、DateField和TimeField三种类型可以用来创建日期字段,其值分别对应着datetime...

5228
来自专栏xcywt

关于 getsockname、getpeername和gethostname、gethostbyname

一、gethostname,gethostbyname的用法 这两个函数可以用来获取主机的信息。 gethostname:获取主机的名字 gethostbyna...

1985
来自专栏逢魔安全实验室

铁人三项2018 pwn [heapmain] Writeup

这个题目的原题是RHME3,直接拿来二进制修改,去掉网络函数,使用socat部署。这波操作可还行

1042

扫码关注云+社区