不同的Scrapy请求，相同的输出值_不同的输出，相同的行？_相同Ruby代码的不同输出？ - 腾讯云开发者社区

、

对于一个项目，我正在为某些搜索词运行大量的Scrapy请求。这些请求使用相同的搜索词，但时间范围不同，如以下URL中的日期所示。尽管URL引用的日期和页面不同，但我收到的值与所有请求的输出值相同。它看起来像是脚本获取了第一个值，并将相同的

浏览 18提问于2019-02-13得票数 0

2回答

向Scrapy Spider添加标题

、

对于一个项目，我运行了大量的Scrapy请求特定的搜索条件。这些请求使用相同的搜索条件，但时间范围不同，如下面URL中的日期所示。尽管URL引用的日期和页面不同，但我收到的值与所有请求的输出值相同。看起来，脚本正在接受获得的第一个值，并将

浏览 3提问于2019-02-14得票数 6

回答已采纳

1回答

根据先前要求的结果提出刮擦请求？

、

我正在抓取数据，对于每个用户，我不知道是否会有整个时间段的数据。因此，我想首先调用大量时间块上的API，然后如果有结果，则调用API以在该大块中进行较小的时间增量。我最初尝试只抓取大块的数据，但是API似乎有一些有文档的max记录要显示，有时只显示记录的一部分，从而导致json格式化问题和数据不完整。编写基于先前请求对象的响应对象长度的新请求对象的蜘蛛的智能方法是什么？我没有尝试任

浏览 1提问于2015-06-02得票数 0

回答已采纳

1回答

响应刮薄壳的不同结果

、、、

当我开始刮擦的时候，我想得到一辆车的价格。我试着得到价值结果与网站上显示的结果不一样['\n\t\t

浏览 1提问于2018-09-22得票数 0

回答已采纳

2回答

导出Curl格式的Scrapy请求

、、

我使用Postman进行API测试，它具有导入curl命令的能力。刮擦可以以这种格式(或任何其他格式)导出吗？这可能有助于调试请求。

浏览 20提问于2016-06-08得票数 6

回答已采纳

1回答

如何从RFPDupeFilter或CustomFiler生成项目

、、

我用Scrapy从不同的网站抓取网页。对于每个scrapy.Request()，我都设置了一些元数据，用于生成一个项。我的代码也可能为相同的url生成多个scrapy.Request()，但是具有不同的元。yield scrapy.Request(url='http://www.example.com', meta={'some_field'

浏览 7提问于2022-09-01得票数 0

回答已采纳

1回答

使用表单身份验证绕过警报消息

、、、

Scrapy有可能爬行一条警告信息吗？或者，是否有一种方法可以检查警报消息中的表单，以了解要填充哪些参数？PS:我确实有这个网站的凭证，我只是想通过网络爬行来自动处理。谢谢。

浏览 3提问于2017-11-09得票数 2

2回答

如何忽略Scrapy中已经爬行的URL

、、、

我想添加一个规则，如果一个URL在调用函数parse2时已经爬行，那么我想忽略它，但是保留parse3的规则。我仍然在探索requests.seen文件，看看是否可以操作它。

浏览 0提问于2013-12-06得票数 1

回答已采纳

1回答

函数，返回值返回到哪里？

、、、

我是“飞毛腿”的新手，如果这个问题微不足道，我很抱歉。我从官方网页上读到了“刮刮”上的文件。当我翻阅文档时，我遇到了这个例子：from myproject.items import MyItem yield MyItem(title=h3) yield

浏览 1提问于2014-10-04得票数 7

回答已采纳

1回答

从scrapy.middleware和scrapy.crawler删除信息日志

、、、

有没有人知道是否有办法为scrapy的模块设置不同的级别？我希望记录被刮掉的项和日志文件中发送的请求，但是来自scrapy.middleware、scrapy.crawler和scrapy.utils.log模块的日志总是相同的，并且不会给日志文件增加值。Scrapy的文档说，可以修改中特定记录器的级别，但是当

浏览 1提问于2022-10-12得票数 1

回答已采纳

1回答

如何抓取有加载器的网站？

、、

我正在尝试抓取包含加载屏幕的网站。当我浏览网站时，它显示正在加载..一秒钟，然后它就加载了。但问题是，当我尝试使用scrapy抓取它时，它什么也得不到(可能是因为加载)。我可以使用scrapy解决这个问题吗?还是应该使用其他一些工具？如果你想看，这里有该网站的链接

浏览 16提问于2019-10-20得票数 0

回答已采纳

1回答

增加不同领域的scrapy的一致性？

我正在尝试将scrapy配置为跟随外部链接。有没有办法将scrapy配置为立即并行开始下载外部链接？我的蜘蛛是： 17 name = "reddit" 31

浏览 1提问于2017-03-09得票数 4

1回答

我想发送一个在嵌套dict中有params的请求。我想通过Scrapy请求发送它，但是我得到422和错误代码，表明params有问题。requests发送相同的请求时，就可以了。response = requests.get(url=self.url, headers=self.headers, params=params) 我尝试了所有不同形式的编码和转储url + params，但我总是得到422表Scrapy。

浏览 5提问于2022-11-29得票数 0

1回答

尝试在网站上抓取google地图api生成的动态数据，但正常抓取返回空白

、、、、

我正在使用scrapy从这个中抓取作业数据。一个作业页面看起来像。静态数据可以很容易地被scrapy抓取，但是google地图apis生成的动态数据，如“距离”和“时间”，给我带来了问题。对于distance字段，我得到了"Distance Unknown“值，而对于time字段，我得到了空值。当我在chrome中打开控制台，然后在脚本部分的网络选项卡中，我可以看到一个对googles map api发出的java请求("Direc

浏览 1提问于2015-02-05得票数 0

1回答

每次运行相同的scrapy项目时，结果都不同

我对Scrapy非常陌生。我设法创建了一个Scrapy项目，运行它来抓取网站，并将废弃的信息保存在csv文件中。然而，每次我运行它，似乎被抓取的网页的数量和顺序都不同。我很确定这个网站在这段时间内是静态的。一般来说，这是正常的吗？

浏览 0提问于2014-03-08得票数 0

1回答

关于爬行器设置、蜘蛛设置、项目设置的混淆

、

我对爬虫设置、蜘蛛设置、settings.py和项目设置感到困惑，我在函数中看到了关于刮伤的文档，而我还没有理解difference.For示例我想知道them.and之间的区别，如果你有这个例子，可以演示，最后请附上below.and，谢谢！

浏览 7提问于2022-11-23得票数 1

1回答

刮刮不尊重LIFO

、

我用的是Scrapy 1.5.1GetGet 但是目前Scrapy从Parse获取2个值并将它们添加到队列中，然后从res_before_get发送2个请求</em

浏览 0提问于2019-10-16得票数 0

回答已采纳

1回答

Scrapy在分页中提供模棱两可的结果

、、、

我已经创建了一个可以分页的抓取蜘蛛。使用相同的脚本与不同的链接，从相同的网站和分页被“过滤异地请求”停止。在scrapy中打开功能"dont_filter“会在页面上运行infity循环。想知道脚本如何在不做任何更改的情况下提供不同的结果？

浏览 10提问于2020-10-21得票数 0

回答已采纳

1回答

尽管get请求url不同，但Scrapy仍在抓取起始页

、、

我正在建立一个刮刀来刮不同的链接使用scrapy。Scrapy不断地从初始page.Although中抓取链接GET请求的urls是不同的，response.url总是相同的，这会导致相同的页面被抓取。我不认为有任何类型的重定向，因为在普通浏览器中链接不会被重定向。我还使用设置了随机DELAY_INTERVAL和轮换用户代理。下面是我的解析函数：

浏览 1提问于2017-01-31得票数 1

1回答

如何在Python中重新运行抓取的请求对象？

、、

我使用的是Scrapy，在response_is_ban函数中，我有两个对象，一个是{Request}对象，一个是{Response}对象。from scrapy.http import Request 由于某些原因，Scrapy请求返回的结果与标准Curl不同。有没有办法重新运行{Request}对象？类似于： response = request.get_again() 我们的目标是弄清楚我的Curl函数和Scrapy<

浏览 14提问于2019-05-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云