Scrapy -在请求中使用Content-Length头部

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地抓取和提取网页数据。它提供了强大的功能和灵活的配置选项，使开发者能够轻松地构建和管理爬虫程序。

在Scrapy中，可以通过在请求中使用Content-Length头部来指定请求的正文长度。Content-Length头部是HTTP协议中的一个标准头部字段，用于指示请求或响应正文的长度，以字节为单位。

使用Content-Length头部的优势是可以提高网络传输的效率和准确性。通过明确指定请求正文的长度，服务器可以更好地处理请求，避免不必要的资源浪费。同时，客户端也可以根据Content-Length头部来准确地接收和处理响应数据。

在实际应用中，使用Content-Length头部的场景较为广泛。例如，在向服务器提交表单数据或上传文件时，可以通过Content-Length头部来指定请求正文的长度。另外，在进行HTTP流式传输或分块传输时，Content-Length头部也可以用于指示每个数据块的长度。

对于Scrapy框架而言，可以通过设置Request对象的headers属性来添加Content-Length头部。具体的代码示例如下：

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    
    def start_requests(self):
        url = 'http://www.example.com'
        headers = {
            'Content-Length': '100',
        }
        yield scrapy.Request(url, headers=headers, callback=self.parse)
    
    def parse(self, response):
        # 解析响应数据的逻辑
        pass

在上述示例中，通过设置headers属性，将Content-Length头部添加到请求中。这样，发送的请求将包含Content-Length头部，并且值为100。

腾讯云提供了一系列与云计算相关的产品，其中包括云服务器、云数据库、云存储等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用方式。

解析Python服务器上的分块请求

python、post、server、multipartform-data、multipart

我正在努力解决在Python上解析多部分请求的问题。我已经使用http.server创建了一个服务器，并尝试处理GET、POST和POST multipart等请求。GET和POST都可以，但当我尝试从多部分请求集中提取数据时，我得到的结果是： line 220, in parse_multipart headers['Content-Length'] = pdict['CONTENT-LENGTH'] KeyError: 'CONTENT-LENGTH' 我的目的是通过分块请求获取图像。下面是我使用的代码： def do_POST

浏览 2提问于2018-08-10得票数 2

回答已采纳

2回答

HTTP:发送请求后关闭socket进行写入？

http、sockets

HTTP客户端使用的套接字在发送请求后如何正确关闭？或者它必须保持开放(双向)，直到收到完整的响应？如果是，服务器如何确定请求正文的结尾？根据的说法，关闭套接字不是请求的选项。对我来说，这听起来不符合逻辑--如果客户端在关闭自己的一半套接字后没有尝试传输任何内容，那么半封闭的TCP连接为什么会成为服务器的问题呢？毕竟，客户端仍然可以接收数据。在我看来，关闭套接字的写部分是让服务器知道请求已经完成的一种非常实用的方法。甚至特别提到了这个用例。如果这真的是一种错误的方式，那么还有什么选择呢？我是否真的总是需要发送"Content-length“或使用分块传输来使服务器能够正确地找到请

浏览 4提问于2012-01-14得票数 2

回答已采纳

1回答

HTTP状态代码411 -需要长度

ios、objective-c、nsurlconnection、nsurlrequest、http-status-code-411

我尝试从服务器获取数据。我使用NSURLConnectionDelegate，NSURLConnectionDataDelegate。有代码(Objective - C)。 -(void)sendRequest { NSURL* url = [[NSURL alloc] initWithString:@"http://SomeServer"]; NSMutableURLRequest* request = [[NSMutableURLRequest alloc] init]; NSString* reqBody = [NSString stringWithFormat:@

浏览 4提问于2013-10-07得票数 17

回答已采纳

1回答

Python请求和urllib2在连接到同一主机时获得不同的标头

python、python-requests、urllib2

我们有一个提供.txt文件的服务器，基本上是一些随着时间增长的日志文件。当我使用urllib2将GET发送到服务器r = urllib2.urlopen('http://example.com')时，响应的报头将是： Date: XXX Server: Apache Last-Modified: XXX Accept-Ranges: bytes Content-Length: 12345678 Vary: Accept-Encoding Connection: close Content-Type: text/plain 而如果是r = requests.get('ht

浏览 0提问于2017-01-14得票数 1

1回答

如何在没有Content-Length头部的情况下流式传输HTTP文件？

php、apache、http、http-streaming

是否可以在不包含content-length报头的情况下将文件上传到apache php服务器？我正在尝试流式传输一个文件，我在飞行中创建的文件上传。当我不使用content-length头部时，我得到了apache "501 Method Not Implemented“。 $sock = fsockopen($host,80,$errno, $error); fwrite($sock, "POST $resource HTTP/1.1\r\n" . "Host: $host\r\n\r\n"); fwrit

浏览 4提问于2012-08-29得票数 9

回答已采纳

1回答

服务器在收到整个请求之前发送HTTP响应是否可接受？

http

考虑一个大的HTTP请求： POST /upload HTTP/1.1 Content-Type: multipart/form-data Content-Length: 1048576 ... 客户端现在开始上传一兆字节的数据，这可能需要一段时间。但是，服务器确定需要超文本传输协议授权，因此它决定使用HTTP 401 Unauthorized进行响应。服务器必须等到收到整个请求(IE、headers + CRLF CRLF + Content-Length字节)才能响应吗？实际上，这样的行为会破坏任何浏览器吗？浏览器是否会继续上传文件，或者如果收到“过早”的响应，它们是否会停止传输？

浏览 31提问于2013-01-10得票数 48

回答已采纳

1回答

Python get http预告片

python、http、python-requests、http-headers

如何使用python获取HTTP尾部响应头？我正在使用requests.get，但我无法获取某些X内容类型或X状态。但是，当我在-i中使用curl时，我得到了以下响应。是否需要发送特定的头部或参数？我试着发送TE: trailers，但它似乎没有任何作用。一些示例代码： import requests url = "some_api_endpoint" params = {"param1": "val1"} headers = {"Accept": "application/json", "TE"

浏览 0提问于2021-04-01得票数 2

2回答

为什么在最后一块长度为零之后，有些服务器不使用CRLF？

http、chunked-encoding、chunked

我正在使用HTTP工具(类似于cURL)，服务器响应出现了问题。或者是我对HTTP1.1和块数据的RFC的理解。我看到的是分块的数据应该是这种格式的： 4\r\n Wiki\r\n 5\r\n pedia\r\n e\r\n in\r\n\r\nchunks.\r\n 0\r\n \r\n 我实际上看到的是： 4\r\n Wiki\r\n 5\r\n pedia\r\n e\r\n in\r\n\r\nchunks.\r\n 0 换句话说，我测试过的几个服务器在0之后不再发送数据。不是CRLF更不用说CRLFCRLF了。如果没有适当的分块标记格式，我们如何才能知道分块数据的结束呢？超时

浏览 5提问于2015-11-23得票数 5

1回答

如何从redis获得一个正常的url，而不是通过url cPikle转换？

python、redis、scrapy、scrapy-spider、scrapy-pipeline

我使用scrapy简单地构建了一个分布式爬虫，从机器需要读取url形式的主队列url，但是有一个问题是，我到达url从机器是在cPikle转换后的数据，我想从redis- url队列中获得url是正确的，您有什么建议？示例： from scrapy_redis.spiders import RedisSpider from scrapy.spider import Spider from example.items import ExampleLoader class MySpider(RedisSpider): """Spider that reads urls f

浏览 5提问于2016-03-21得票数 1

回答已采纳

2回答

使用CORS过滤的跨域请求

ajax、angularjs、rest、cross-domain、cors

我正在尝试从AngularJS 1.3应用程序向REST服务发出跨域请求。虽然我启用了CORS过滤器，但我得到了一个403禁止响应。这是请求(从chrome dev工具复制粘贴)。在IE 9上，它似乎可以工作。我在Chrome和Firefox上得到403错误代码。 Remote Address:127.0.0.1:8080 Request URL:http://localhost:8080/<path> Request Method:OPTIONS Status Code:403 Forbidden Request Headersview source Accept:*/* Acc

浏览 0提问于2015-02-17得票数 4

回答已采纳

2回答

PHP CURL:手动设置content-length头部

php、http、curl

假设我用PHP上传了一个文件，CURL： $postData = array(); $postData['file_name'] = "test.txt"; $postData['submit'] = "UPLOAD"; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url ); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); curl_setopt($ch, CURLOPT_POST, 1 ); curl_setopt($ch,

浏览 1提问于2009-12-17得票数 7

回答已采纳

2回答

将HTTP响应与其相应的HTTP管道请求进行匹配

http、get、http-headers、httprequest、pipelining

我正在尝试编写一个程序，将HTTP请求与其相应的响应进行匹配。似乎在大多数情况下(通过使用TCP序列号，传输是完美有序的，甚至是不是有序的)，一切都工作得很好。我发现的唯一问题是当我有流水线请求的时候。在那之后，我收到了几个响应，但我不知道哪些数据包是对特定请求的响应，哪些不是。我在另一篇文章中读到，响应将按顺序到来，将此属性与Content-Length字段的信息相结合似乎是一个解决方案。问题是Content-length不是必填字段，所以我不确定是否可以一直依赖它。有没有人知道支持这个特性的浏览器(顺便说一句，并不是大多数浏览器)实际上是怎么做的？

浏览 2提问于2011-08-08得票数 1

回答已采纳

6回答

检测HTTP请求正文的结尾

http

我正在尝试编写自己的HTTP客户端和服务器，并希望客户端在请求中包含一个可选的主体。在服务器端，我希望在发送HTTP响应之前读取整个正文。我的问题是在服务器上，我如何知道我已经阅读了整个正文？即使在这种情况下，我同时控制客户端和服务器，我也在寻找一种“标准”方法。但是，因为Content-Length是可选的，所以我想要一个不需要它的方法。如果客户端关闭连接，则很容易读取所有可用数据，但是客户端需要保持连接打开以等待响应，因此此方法不起作用。我所能想到的就是了解身体的格式，并检测到一个终结符(例如：</HTML>)。理想情况下，我不想需要这些知识。有没有我忽略的方法？

浏览 0提问于2011-01-28得票数 68

1回答

Node.js HTTP GET请求内容类型

node.js、http、rest、get

我正在尝试执行来自node.js的GET请求。此请求将发送到REST服务器，该服务器将访问Hbase并返回数据。GET请求包含所有必要的Hbase信息(表、键、列族等)在里面。以下是代码。 var http = require('http'); var url = { host: '127.0.0.1', port: 8000, path: '/table-name/key/column-family', headers: { 'Content-Type': 'application/octet-s

浏览 0提问于2014-03-28得票数 5

2回答

Cookie策略信息破坏了POST请求中对REST webservice的实体有效负载

android、rest、http-post、apache-httpclient-4.x

大家好，谢谢大家提前阅读(第一次堆栈溢出post..yaay ^^) 我试图向REST and服务发送带有JSON有效负载和cookie (包含身份验证信息)的POST请求。JavaEE读取HttpServletRequest的InputStream，但是(前23个字节)缺少(尽管它们在请求中)。服务器可以很好地处理通过curl或此发送的请求(由WizTools.org发送)。在查看发送的数据包时，我注意到在读取inputStream时忽略的字节数与已接受的Cookies的描述相同，即Cookie2：$Version=1\r\n 因此，可能发生的情况是，请求内容长度对于JSONdata (2

浏览 3提问于2013-08-09得票数 0

回答已采纳

2回答

(spring-boot，cxf，tomcat)内容长度与传输编码:分块？

tomcat、soap、spring-boot、cxf、transfer-encoding

我在试着解决一个问题。http响应-标头：Transfer-Encoding: chunked 我们在spring-boot + embedded-tomcat中有一个。 SOAP响应得到一个Content-Length头，而没有Transfer-Encoding .我想这是正常的吗？不幸的是，我们有一些遗留的客户端黑客，这似乎只适用于Transfer-Encoding: chunked，而不是Content-Length。有没有办法让强迫服务器应用程序使用Transfer-Encoding: chunked进行响应？究竟是什么决定了生成哪种响应格式？它是可配置的吗？

浏览 6提问于2017-05-16得票数 2

1回答

Node.js:为什么post请求w/ png的content-length头部值小于实际文件大小？

node.js、http、curl、post、content-length

我正在向本地node.js服务器发出post请求。post请求包含一个2.6 kB的.png文件。post请求使用curl发出： curl -v -X POST -H "Content-Type: image/png" -d @node.png http://localhost:3000 curl命令的请求输出为： POST / HTTP/1.1 User-Agent: curl/7.38.0 Host: localhost:3000 Accept: */* Content-Type: image/png Content-Length: 1328 Expect: 1

浏览 0提问于2016-11-29得票数 0

1回答

nodejs:进程中中止http回复

node.js、express

如何中止中间带有express的http回复？在我的例子中，我提供从外部源生成的数据，在我开始提供它之前，我知道它的大小(content-length)。但是，如果外部源在向我提供完整内容之前停止向我提供数据，我希望中止请求，以便在接收端触发错误事件。下面是简单的代码，服务器： //server var express = require('express'); var app = express(); app.use(function(req, res, next){ res.setHeader('Content-Length', 100);

浏览 6提问于2016-09-25得票数 2

回答已采纳

1回答

HTTP如何指定传输编码的响应结束:块？

http

在这个中，一个典型的HTTP响应可能如下所示 HTTP/1.1 200 OK Date: Mon, 23 May 2005 22:38:34 GMT Content-Type: text/html; charset=UTF-8 Content-Encoding: UTF-8 Content-Length: 138 Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux) ETag: "3f80f-1b6-3e1cb03b" Accept-Ranges: b

浏览 3提问于2017-04-16得票数 0

回答已采纳

2回答

从默认的http客户端设置的openfe传请求中删除标头

java、spring-boot、spring-cloud-feign、feign

我称之为API，它黑名单的某些HttpHeaders，包括Content-Length，似乎是预先设定的HttpClient下春季开幕假。要正确地接收API响应，我需要删除Content-Length头。已经尝试了以下解决办法：我尝试使用可用的假名注释@Headers，@RequestHeaders将标题设置为null或空字符串。我实现了一个RequestInterceptor，它创建可用(不可变)头映射的副本，删除黑名单中的标题，并将映射设置为requestTemplate.headers(newHeaders)。但是只能添加新的标头，并且没有修改的可用标头(看起来确实是不可变

浏览 1提问于2019-09-13得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy -在请求中使用Content-Length头部

相关·内容

解析Python服务器上的分块请求

HTTP:发送请求后关闭socket进行写入？

HTTP状态代码411 -需要长度

Python请求和urllib2在连接到同一主机时获得不同的标头

如何在没有Content-Length头部的情况下流式传输HTTP文件？

服务器在收到整个请求之前发送HTTP响应是否可接受？

Python get http预告片

为什么在最后一块长度为零之后，有些服务器不使用CRLF？

如何从redis获得一个正常的url，而不是通过url cPikle转换？

使用CORS过滤的跨域请求

PHP CURL:手动设置content-length头部

将HTTP响应与其相应的HTTP管道请求进行匹配

检测HTTP请求正文的结尾

Node.js HTTP GET请求内容类型

Cookie策略信息破坏了POST请求中对REST webservice的实体有效负载

(spring-boot，cxf，tomcat)内容长度与传输编码:分块？

Node.js:为什么post请求w/ png的content-length头部值小于实际文件大小？

nodejs:进程中中止http回复

HTTP如何指定传输编码的响应结束:块？

从默认的http客户端设置的openfe传请求中删除标头

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐