如何使scrapy请求同步_如何使addEventListener同步_如何使函数同步 - 腾讯云开发者社区

python-3.x、loops、request、scrapy、synchronous

我最近开始使用Scrapy和Python，所以请容忍我。我的代码基于这个tutorial。我需要从我的国家(巴西)的所有城市从这个website在不同年份的一些信息。下拉列表的选项是通过AJAX请求动态生成的。因此，我首先获取所有年份和州，然后请求获取每个州的城市。也让我知道原因)，即它向一个州错误的城市发出请求。因此，我收到了错误的响应。顺便说一句，虽然使用return可以完成函数，但它会发出正确的请求。第二:回调将获取所有城市，并在该年的该州为该城市发出请求。第三: parse_re

浏览 93提问于2019-03-01得票数 0

回答已采纳

2回答

Scrapy默认是异步的吗？

python、asynchronous、web-scraping、scrapy

如果scrapy的性质是正确的，它会移动到另一个页面，直到收到前一个页面的响应。向下滚动后，我看到使用了async def，这意味着通过添加显式地使该方法成为异步方法。

浏览 108提问于2020-05-07得票数 2

回答已采纳

1回答

修改scrapy进程请求

python、selenium、scrapy

import scrapyfrom scrapy.loader import ItemLoaderfrom scrapy.crawler import CrawlerProcess scrapy

浏览 0提问于2019-08-03得票数 0

1回答

如何将Keep_Fragments参数设置为True？

scrapy

我正在尝试抓取一个使用Js的站点，但scrapy一直将下一个页面的url作为副本丢弃，并停止抓取。根据我的理解，scrapy通过检查请求所指向的资源的散列来检查重复项，默认情况下会丢弃URL中的片段。(参见下面的scrapy发布说明摘录) “scrapy.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹(问题4104)” 我的问题是，如何实际修改这个参数？

浏览 20提问于2020-09-09得票数 0

回答已采纳

2回答

Scrapy分布式连接计数

redis、scrapy、middleware

假设我有几个服务器，每个服务器同时运行多个Scrapy spider实例。使用CONCURRENT_REQUESTS = 4，每个爬行器被限制为4个并发请求。具体来说，假设一次有10个爬虫实例，所以我从不期望一次最多有40个请求。如果我需要知道在任何给定时间，有多少并发请求在所有10个爬行器中处于活动状态，我可能会考虑将该整数存储在中央redis服务器上的某个"connection_count“键下。我的理论是，即使每个爬行器的请求并发数上限为4，Scrapy仍然会同时创建和排

浏览 1提问于2017-02-02得票数 0

2回答

如何在asyncio甚至循环内运行scrapy spider？

python、scrapy

有没有办法在asyncio循环中运行scrapy spider？例如，在以下代码中：from scrapy.crawler import CrawlerProcessimportscrapy process = CrawlerProcess() await process.crawl(MySpider)

浏览 1提问于2017-12-04得票数 5

1回答

如何将所有CPU核心用于Scrapy

scrapy

不管我怎么使用CONCURRENT_REQUESTS，我的scrapy程序只使用一个CPU核心。scrapy中的一些方法是否可以在一个scrapy爬虫中使用所有的cpu核心？

浏览 0提问于2017-07-10得票数 5

4回答

如何使Scrapy在日志中的每个下载请求显示用户代理？

python、web-scraping、scrapy、web-crawler、user-agent

我知道我可以在Scrapy项目的settings.py文件中设置settings.py。当我运行Scrapy时，我可以在USER_AGENT日志中看到INFO的值。这个USER_AGENT在我想要爬行的服务器的每个下载请求中都被设置。但是，在USER_AGENT的帮助下，我正在使用多个随机。我想这个随机选择的USER_AGENT会起作用。我想确认一下。那么，如何使Scrapy 在每个下载请求中显示 USER_AGENT，以便在日志中看到USER_AGENT的值？

浏览 9提问于2014-04-18得票数 14

3回答

Scrapy是单线程还是多线程？

python、multithreading、scrapy、web-crawler

在Scrapy中几乎没有并发设置，比如。这是否意味着Scrapy crawler是多线程的？所以如果我运行scrapy crawl my_crawler，它会同时并行地触发多个请求吗？我问这个是因为，我读到过Scrapy是单线程的。

浏览 0提问于2014-07-15得票数 17

1回答

通过python scrapy包获取响应

python、scrapy、python-requests

我想在python中通过scrapy发送一个http请求，并在一个变量中获得响应。我不知道如何捕捉回复文本。from scrapy import Request "authority": "***", "user-agent": "Mozilla

浏览 14提问于2020-09-04得票数 1

1回答

基于同一蜘蛛先前爬行的抓取跳过请求

python、python-3.x、scrapy、scrapy-pipeline

如果发现一个红色的球，我想停止爬行剩下的球(也就是说，我不想为下一个球发出请求，我知道它不会是红色的，因为我已经找到了)。 name = 'test_spider' yield {&#

浏览 6提问于2021-10-13得票数 0

回答已采纳

1回答

Scrapy crawlers不能从Python脚本同时运行

python、command-line、scrapy

下面是我运行所有脚本的Python脚本：cityNames = file.readcityNames: output = city + ".json" cmdline.execute(['scrapy

浏览 0提问于2015-11-12得票数 0

2回答

在python中使用scrapy执行Javascript函数

python、scrapy

我对"scrapy“非常陌生，我正在废弃一个网站，因为我有一些锚标记，其中包含了带有java脚本SubmitForm函数的href属性。有人能告诉我如何在scrapy python.My HTML代码中执行javascript提交锚标记的函数吗？

浏览 7提问于2012-05-18得票数 5

3回答

如何在没有回调的情况下从scrapy.Request获得响应？

python、python-3.x、scrapy

我想发送一个请求并等待来自服务器的响应，以便执行与操作相关的操作。我写了以下内容却没有得到任何帮助。如何等待服务器的响应？

浏览 1提问于2018-09-05得票数 6

回答已采纳

1回答

如何从停止的地方重新启动蜘蛛？

python、web-scraping、scrapy、scrapy-spider

当我阅读Scrapy文档时，在作业:暂停和继续爬行主题下，我使用文档中提到的命令运行爬行器，即scrapy爬行蜘蛛名称-s JOBDIR=目录路径。当我再次查看文档时，它指出“请求必须由泡菜模块序列化，以便持久性工作，因此您应该确保您的请求是可序列化的.”，在完成settings.py中的SCHEDULER_DEBUG = TRUE设置之后，我在控制台中可以看到，这就是为什么在请求没有序列化的情况下如果

浏览 0提问于2018-11-29得票数 1

回答已采纳

1回答

如何发出请求并获取所有链接

python、scrapy

如何使另一个函数对列表中的每个链接发出请求，并从第二个页面响应中获取所有链接？import scrapy name = 'nytimes' allowed_domains

浏览 2提问于2022-01-24得票数 0

回答已采纳

1回答

如何在Python2.7中创建一个有效的爬虫

python、web-scraping、beautifulsoup、web-crawler

所以我想要一些想法，以及如何实现它们来改善这一点，例如，我有产品ID，所以如果我已经访问了一个包含该ID的链接，我就不想再访问它了。我想抓取所有的网页，但只访问包含产品的网页……但我不知道如何实现这两个想法:/import urllibfrom itertoolsfound_urls) pass 例如，在爬虫中，我使用单词"#C“来知道这是一个产品页面并获

浏览 0提问于2015-11-23得票数 1

1回答

硒与Scrapy结合

python、selenium、selenium-webdriver、web-scraping、scrapy

是否有任何方法有效地将Selenium集成到Scrapy中，以实现其页面呈现功能(以便生成屏幕截图)？在Scrapy已经处理完这个请求之后，我看到的很多解决方案只是在WebDriver上抛出一个Scrapy请求/响应URL，然后就可以完成了。这会产生两倍多的请求，在许多方面失败(需要登录的站点，具有动态或伪随机内容的站点，等等)，并使许多扩展/中间件失效。有什么“好”的方法让这两个人一起工作吗？

浏览 3提问于2015-07-13得票数 6

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

python、scrapy

但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1import scrapy name = 'marketextrac

浏览 3提问于2018-12-02得票数 0

2回答