Scrapy crawler响应url与请求url

文章/答案/技术大牛

发布

2回答

、

响应url与请求url不同，因此它更改了我的搜索查询。附上了一个scrapy shell的例子，其中的差异是可见的。谁能给我解释一下为什么会发生这种情况，以及我如何防止这种情况发生？] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor[s] scrapy

浏览 68提问于2020-04-19得票数 0

1回答

通过pika，我从rabbitmq获取url，并尝试为Scrapy spider创建新请求。当我用scrapy crawl spider启动我的爬行器时，我不会因为raise DontCloseSpider()而关闭，但也不会为爬行器创建一个请求import pikafrom scrapy.http import Request from scrapy.exceptions im

浏览 1提问于2020-06-05得票数 0

2回答

抓取请求-处理一组又一组urls我可以使用优先级吗？

、、

优先级(int) -此请求的优先级(默认为0)。调度程序使用优先级来定义用于处理请求的顺序。优先级较高的请求将更早地执行。为了表示相对较低的优先级，允许使用负值.*scrapy.utils.signal中的文件scrapy.utils.signal第30行，**命名)文件"/home/milano/.virtualenvs/eoilenv/local/lib/信息:关闭蜘蛛(完成) # coding=ut

浏览 3提问于2017-11-22得票数 1

回答已采纳

1回答

忽略导出SCRAPY_SETTINGS_MODULE的刮擦外壳

、、、、

无论如何，我设置了上面的内容，并在没有指定任何蜘蛛的情况下，针对我想要的示例URL运行scrapy。启动时没有异常或警告，但不使用我提供的设置模块。我做错了什么？

浏览 3提问于2017-09-11得票数 1

回答已采纳

2回答

Splash不会执行lua脚本

、、

从ScrapyRequest调用返回的响应似乎是一个HTML，而我期待的是一个文档标题。我假设Lua脚本从未被调用，因为它似乎对响应没有明显的影响。from urlparse import urljoin from scrapy_splash import SplashRequest return splash:evaljs("document.title")"""

浏览 4提问于2016-08-12得票数 4

回答已采纳

2回答

将selenium响应url传递给刮伤

、、

但是我不知道如何把回应url传递给爬行蜘蛛。"html_str=str(text_html) for p

浏览 3提问于2015-07-02得票数 10

回答已采纳

3回答

如何在Scrapy上同步获取请求的响应对象？

、

无论如何，我正在尝试创建一个方法来检查文件是否存在，下面是我的代码： res = False; if response.status == 200: return res我认为请求()方法将返回一个响应对象，但它仍然返回一个请求对象，要捕获响

浏览 4提问于2016-06-21得票数 2

回答已采纳

1回答

信号只在主线程中工作：

、、、、

但是，当我试图将刮伤脚本与python集成时，我没有得到输出。from django.views.decorators.csrf import csrf_exempt @csrf_exemp

浏览 1提问于2018-10-16得票数 2

1回答

抓取LinkExtractor -限制每个URL爬行的页数

、、、

我试图限制抓取的CrawlSpider中每个URL的爬行页面数。我有一个start_urls的列表，我想对每个URL中的页面爬行的数量设置一个限制。filter_domain.pyfrom collections import defaultdict self.counter = defaultdict(int) @classm

浏览 1提问于2015-12-24得票数 7

1回答

scrapy从数据库生成url

在我的scrapy项目中，我必须从数据库中获取大量的urls，这些urls由另一个爬行器填充。通常，我将从数据库中获取urls并将它们设置为蜘蛛的start_urls属性，但是在数据库中可能有成千上万的1000+，并且url可以随时更新。所以我想知道是否有可能为每个请求从数据库中读取一个？

浏览 15提问于2016-07-29得票数 0

回答已采纳

1回答

如何在Scrapy* start_url中找到当前的CrawlSpider？*

、、、

当从自己的脚本运行Scrapy (从DB加载URL并遵循这些网站上的所有内部链接)时，我会遇到一个小问题。我需要知道当前使用的是哪个start_url，因为我必须保持与数据库(SQL )的一致性。例如，当Scrapy启动并且start_urls正在被爬行，并且爬虫跟踪在那里找到的所有内部链接时，我以后只能确定当前访问的URL，而不是Scrapy开始运行的start_url。scrapy.crawler import

浏览 1提问于2018-09-10得票数 2

回答已采纳

9回答

如何获取失败的URL？

、、、

我是scrapy的新手，它是我所知道的令人惊叹的爬虫框架！在我的项目中，我发送了超过90,000个请求，但其中一些请求失败了。我将日志级别设置为INFO，我只能看到一些统计信息，但看不到详细信息。例如，显示那些失败的URL。谢谢!

浏览 1提问于2012-12-05得票数 49

回答已采纳

1回答

如何在风流DAG中运行状态1下退出死气沉沉

、、、

我正试图退出scrapy，状态代码1处于异常状态。脚本正在通过DAG运行。但是，状态代码1没有退出该任务。try: sys.exit(1) 2019年-08-21 09:34:16,199 {bash_operator.py:127} INFO - scr

浏览 1提问于2019-08-21得票数 2

2回答

CrawlerRunner不使用钩针抓取页面

、、、

链接： import scrapyfrom scrapy.utils.project import get_project_settingsin urls: page =

浏览 0提问于2019-01-29得票数 0

1回答

从Scrapy* Pipeline发出非阻塞HTTP请求*

、

据我所知，Scrapy是单线程的，但在网络端是异步的。我正在做一些需要从项目管道中调用外部资源的API的事情。有没有办法在不阻塞管道和减慢Scrapy爬行速度的情况下发出HTTP请求？谢谢

浏览 5提问于2017-01-13得票数 2

1回答

刮破的蜘蛛不能陷入不和谐

、

我试图制造一个不和谐的刮刀来获取服务器的所有成员，但是我被卡在登录上了，但是我在页面的源代码中任何地方都找不到csrf令牌--也许这就是我得到这个错误的原因，因为有几个消息来源说它是必需的，但我不确定，这是我的蜘蛛造成问题的原因 name = "Recruteur" def start_requestsyield scrapy.Request(url</

浏览 0提问于2021-11-08得票数 0

3回答

Scrapy pause/resume是如何工作的？

+ '\n')from twisted.internet import reactorfrom scrapy, signal=signals.spider_closed)crawler.crawl(spider)log.start()我将DOWNLOAD_DELAY设置为10 s

浏览 0提问于2015-03-04得票数 8

2回答

Scrapy和响应状态码:如何检查？

、、

我正在使用scrapy抓取我的网站地图，检查404,302和200个页面。但我似乎无法得到响应码。这是我到目前为止的代码： class TothegoSitemapHomesSpider(SitemapSpider[crawler_name] -a country=[country] -a domain=[domain] \nWith [crawler_name]:\n- tothego_homes_sp

浏览 0提问于2012-03-14得票数 19

回答已采纳

1回答

尽管表单在响应中填写正确，但FormRequest不返回任何结果

、、、、

www.halifax.co.uk/branchfinder/search.asp)上抓取营业时间，但我一定是在FormRequest.from_response()调用中做错了什么，因为对FormRequest的响应似乎与最初的响应没有变化branch-finder-results-container"> </div></form> 这是我到目前为止的代

浏览 16提问于2019-05-11得票数 0

回答已采纳

2回答

简单的爬行蜘蛛不会爬行

、

import Selectorfrom scrapy.settings import Settingsfrom scrapy.http.request import Request name

浏览 1提问于2013-12-03得票数 2

回答已采纳

点击加载更多