Scrapy从请求url获取错误的值

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。它可以通过发送HTTP请求获取网页内容，并使用选择器解析和提取所需的数据。

当使用Scrapy发送请求获取错误的值时，可能有以下几个原因：

网络连接问题：可能是由于网络不稳定或目标网站出现故障导致请求失败。此时，可以尝试重新发送请求或检查网络连接是否正常。
请求参数错误：可能是由于请求参数设置不正确导致获取到错误的值。在使用Scrapy发送请求时，需要确保请求的URL、请求方法、请求头、请求体等参数设置正确。
网页结构变化：可能是由于目标网页的结构发生变化导致无法正确解析所需的数据。在使用Scrapy解析网页时，需要根据网页的实际结构进行相应的选择器设置，以确保能够正确提取数据。

针对以上问题，可以采取以下解决方案：

检查网络连接：确保网络连接正常，可以尝试使用其他工具或浏览器访问目标网站，以确认是否存在网络问题。
检查请求参数：仔细检查请求的URL、请求方法、请求头、请求体等参数设置是否正确，可以通过打印请求参数的方式进行调试。
更新选择器：根据目标网页的实际结构，更新选择器的设置，确保能够正确解析所需的数据。可以使用Scrapy提供的选择器工具，如XPath或CSS选择器，来定位和提取数据。

对于Scrapy的相关产品和产品介绍，腾讯云提供了一系列云计算服务，包括云服务器、云数据库、云存储等。这些产品可以与Scrapy结合使用，提供稳定的计算和存储资源，以支持爬虫应用的运行和数据存储。具体的产品介绍和相关链接地址可以参考腾讯云官方网站。

页面内容是否对你有帮助？

有帮助

没帮助

Scrapy从请求url获取错误的值

、、

我试图从提取标题，但得到不同的标题，这不是回复网址的标题。我试着这样做- name = 'qwerty4'

浏览 10提问于2017-02-26得票数 0

回答已采纳

1回答

在刮取Scrapy时，每个URL的HTTP响应代码

、、、、

被刮掉的URL数量和获得200个响应状态的URL数量是不一样的。另外，我想得到的URL与他们各自的反应。我正在使用Scrapy抓取70000个URL，同时希望通过Scrapy获取每个URL的HTTP响应状态，以便在获取特定URL的内容之后，我们还将获得该URL的</e

浏览 1提问于2018-09-03得票数 0

3回答

如何在scrapy中覆盖/使用cookie

、

如果您尝试通过URL ()直接访问语言版本，则会出现问题并返回服务器错误。from scrapy.spider import BaseSpiderfrom scrapy.contrib.spidersimport Crawl

浏览 2提问于2012-05-20得票数 21

2回答

Scrapy Shell -如何更改USER_AGENT

、、、

我有一个功能齐全的抓取脚本从网站提取数据。在安装过程中，目标站点根据我的USER_AGENT信息禁用了我。但是，现在当我尝试使用scrapy shell来测试xpath和css请求时，我得到了一个403错误。我确信这是因为scrapy shell的USER_AGENT默认为目标站点已列入黑名单的某个值。问:是否可以在scrapy shell中使用不同于默认的USER_AGENT来<

浏览 0提问于2014-08-21得票数 19

回答已采纳

1回答

刮刮不尊重LIFO

、

我用的是Scrapy 1.5.1我想要的行为是:1来自Parse的值被发送到res_before_get，然后我使用它进行处理。然后，来自Parse的另一个值被发送到res_before_get，等等。Po

浏览 0提问于2019-10-16得票数 0

回答已采纳

2回答

我遇到过带有Ajax隐藏元素的页面，我需要爬行这些元素。我发现了这个简洁的教程，它展示了如何在没有对服务器的额外调用的情况下使用Selenium来完成此操作(我也是这样)。然而，这个和其他来源提到了为此目的使用Selenium的性能成本。在本例中，驱动程序是在构造函数中启动的，所以我假设对蜘蛛的所有请求都将通过Firefox进行？我只涉及到一小部分Ajax调用，其余的都是标准的Scrapy爬行。在完

浏览 5提问于2015-11-20得票数 0

回答已采纳

2回答

随后抓取多个蜘蛛

、

我对scrapy有点陌生，我被困在了一个点上。我想在蜘蛛关闭时重新启动它。我在这里尝试实现的是从数据库获取URL，我编写视图的方式是，每当我发送"scrapy crawl xyz“请求时，start_request将获得一个URLnext URL，该URL与从数据库传递的前一个请求中的URL不同。问题是，如果在数据库中

浏览 17提问于2016-07-29得票数 2

1回答

在scrapy中处理启动请求操作

、

当我提交请求时，我面临着奇怪的行为，理想情况下，每个请求都会在6秒后产生，但实际发生的情况是，在60 (6*10)秒后，所有请求都会同时发出，我能够通过CONCURRENT_REQUESTS=1解决这个问题import scrapyfrom scrapy.utils.response import open_in_browser def st

浏览 3提问于2020-02-07得票数 0

1回答

如何在scrapy* spider运行时获取新的令牌头*

、、

我正在运行一个抓取蜘蛛，它首先从我抓取的网站获取授权令牌，使用基本请求库。用于此的函数称为get_security_token()。此令牌作为标头传递给scrapy请求。问题是令牌在300秒后过期，然后我得到一个401错误。爬行器是否可以看到401错误，再次运行get_security_token()函数，然后将新的令牌传递给所有未来的请求头？import scrapy clas

浏览 12提问于2020-08-04得票数 0

2回答

如何使用Scrapy检查http错误代码的响应状态？

、

我想检查响应状态并使用Scrapy将其导出到CSV文件。我试过使用response.status，但它只显示“200”并导出到CSV文件。如何获取其他状态代码，如"404“、"502”等。def parse(self, response): 'URL': response.url, 'Status': response.status

浏览 4提问于2022-10-20得票数 1

回答已采纳

1回答

为Scrapy计划创建新请求

、、、

通过pika，我从rabbitmq获取url，并尝试为Scrapy spider创建新请求。当我用scrapy crawl spider启动我的爬行器时，我不会因为raise DontCloseSpider()而关闭，但也不会为爬行器创建一个请求import pikafrom scrapy.http import Reques

浏览 1提问于2020-06-05得票数 0

1回答

如何使用scrapy获取XMLHTTP请求的数据

、、、

一个网页，其中的数据，我是有一些XHR的要求。我已经使用开发工具获得了XHR请求的url。现在，如何在我的spider.py文件中实现相同的内容，以及如何获取其中的所有值，我从scrapy开始，不知道像这样处理ajax请求。请指导我如何获取数据，并希望可用字段存储在excel文件中。

浏览 0提问于2015-07-28得票数 2

1回答

尝试使用Scrapy抓取分页链接时遇到问题

、、

我正在尝试通过获取带有分页的属性网站上条目的标题来学习Scrapy。我无法从rules列表中定义的'Next‘页面获取条目。代码：from scrapy.selector import Selector from scrapy.linkextractors import忽略最后的item对象代码，我打算将其替换为对另一个方法的

浏览 0提问于2016-07-14得票数 0

1回答

在scrapy中启动请求中的http://url调用

、、、

我正在使用scrapy从网站上抓取数据 request = scrapy.Request(url="http://www.xxxxx.com",callback=self.parse ,dont_filter = True,)从start_requests请求url时，我遇到错误 raise SchemeNotSup

浏览 2提问于2018-06-11得票数 1

1回答

Python requests.post的刮伤版

、、、

我正在对特定端点执行请求，使用python请求添加一些头和json。但是，由于我正在编码的存储库的体系结构是基于scrapy的，所以我想提出相同的请求，但要翻译为scrapyjson_data = { 'page_sizeschool_ids': [

浏览 5提问于2022-10-11得票数 0

1回答

XHR请求预览显示响应中不存在的数据

、、

我正在尝试使用拼搏从一个公共网站上获取一些数据。谢天谢地，数据主要可以在以下xhr请求中找到：但是，当我双击查看实际响应时，search_results项中没有数据：我只是想知道请求是怎么回事，我如何访问这些数据，目前我试着喜欢这个，但显然它没有从响应中获取任何数据。in urls: def par

浏览 6提问于2022-09-11得票数 1

回答已采纳

3回答

如何使用python从整个网站获取所有页面？

、、、

我正在尝试做一个工具，应该从网站上获得每一个链接。例如，我需要从堆栈溢出中获取所有问题页。我试过用刮痕。response): for link in le.extract_links(response): print (url_lnk)我想观察的网站是 --

浏览 0提问于2019-06-19得票数 2

1回答

Scrapy:如何从splash中获取cookie

、、

我正在尝试从开机启动请求中获取cookie，但我一直收到错误。下面是我使用的代码： name = 'p2peyeSpider' assert(splash:go(url)) assert(splash:w

浏览 21提问于2018-08-01得票数 1

2回答

刮除CONCURRENT_REQUESTS信息

、、、、

我正在使用Scrapy，我在文档上读到了关于设置"CONCURRENT_REQUESTS“的内容。文档讨论“由Scrapy下载器执行的并发(即同时)请求的最大数量”。我创建了一个蜘蛛，以便从问答网站获取问题和答案，所以我想知道是否有可能运行多个并发请求。现在，我已经将这个值设置为1，因为我不想丢失某个项或覆盖某个人。主要怀疑是，对于任何项，我都有一个全局ID idQuestion (用于创建idQuesti

浏览 6提问于2015-10-14得票数 1

1回答

Selenium，Scrapy迭代(单击下一步)仅从第一页提取项目的href

、、

我尝试提取每一项的href (每页六个)。要转到下一页，我使用next_click()。Selenium webdriver将打开并单击所有页面(到目前为止还不错)。但只提取第一页中的项。看起来，它识别了正确的条目数量，但只重新提取了第一页的条目。注意:如果您单击下一页，url将保持不变。非常感谢你的帮助！import scrapyimport time from scrapy.linkextrac

浏览 2提问于2020-11-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy从请求url获取错误的值

相关·内容

Scrapy从请求url获取错误的值

在刮取Scrapy时，每个URL的HTTP响应代码

如何在scrapy中覆盖/使用cookie

Scrapy Shell -如何更改USER_AGENT

刮刮不尊重LIFO

从selenium/browser切换到单一蜘蛛的默认机制

随后抓取多个蜘蛛

在scrapy中处理启动请求操作

如何在scrapy* spider运行时获取新的令牌头*

如何使用Scrapy检查http错误代码的响应状态？

为Scrapy计划创建新请求

如何使用scrapy获取XMLHTTP请求的数据

尝试使用Scrapy抓取分页链接时遇到问题

在scrapy中启动请求中的http://url调用

Python requests.post的刮伤版

XHR请求预览显示响应中不存在的数据

如何使用python从整个网站获取所有页面？

Scrapy:如何从splash中获取cookie

刮除CONCURRENT_REQUESTS信息

Selenium，Scrapy迭代(单击下一步)仅从第一页提取项目的href

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐