腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Scrapy
crawler
响应
url
与
请求
url
python-3.x
、
scrapy
响应
url
与
请求
url
不同,因此它更改了我的搜索查询。附上了一个
scrapy
shell的例子,其中的差异是可见的。谁能给我解释一下为什么会发生这种情况,以及我如何防止这种情况发生?] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor[s]
scrapy
浏览 68
提问于2020-04-19
得票数 0
1
回答
为
Scrapy
计划创建新
请求
python
、
scrapy
、
rabbitmq
、
pika
通过pika,我从rabbitmq获取
url
,并尝试为
Scrapy
spider创建新
请求
。当我用
scrapy
crawl spider启动我的爬行器时,我不会因为raise DontCloseSpider()而关闭,但也不会为爬行器创建一个
请求
import pikafrom
scrapy
.http import Request from
scrapy
.exceptions im
浏览 1
提问于2020-06-05
得票数 0
2
回答
抓取
请求
-处理一组又一组urls我可以使用优先级吗?
python
、
scrapy
、
scrapy-spider
优先级(int) -此
请求
的优先级(默认为0)。调度程序使用优先级来定义用于处理
请求
的顺序。优先级较高的
请求
将更早地执行。为了表示相对较低的优先级,允许使用负值.*
scrapy
.utils.signal中的文件
scrapy
.utils.signal第30行,**命名)文件"/home/milano/.virtualenvs/eoilenv/local/lib/信息:关闭蜘蛛(完成) # coding=ut
浏览 3
提问于2017-11-22
得票数 1
回答已采纳
1
回答
忽略导出
SCRAPY
_SETTINGS_MODULE的刮擦外壳
python
、
python-2.7
、
scrapy
、
settings
、
scrapy-spider
无论如何,我设置了上面的内容,并在没有指定任何蜘蛛的情况下,针对我想要的示例
URL
运行
scrapy
。启动时没有异常或警告,但不使用我提供的设置模块。 我做错了什么?
浏览 3
提问于2017-09-11
得票数 1
回答已采纳
2
回答
Splash不会执行lua脚本
scrapy
、
scrapy-splash
、
splash-js-render
从ScrapyRequest调用返回的
响应
似乎是一个HTML,而我期待的是一个文档标题。我假设Lua脚本从未被调用,因为它似乎对
响应
没有明显的影响。from urlparse import urljoin from
scrapy
_splash import SplashRequest return splash:evaljs("document.title")"""
浏览 4
提问于2016-08-12
得票数 4
回答已采纳
2
回答
将selenium
响应
url
传递给刮伤
python
、
selenium
、
scrapy
但是我不知道如何把回应
url
传递给爬行蜘蛛。"html_str=str(text_html) for p
浏览 3
提问于2015-07-02
得票数 10
回答已采纳
3
回答
如何在
Scrapy
上同步获取
请求
的
响应
对象?
python
、
scrapy
无论如何,我正在尝试创建一个方法来检查文件是否存在,下面是我的代码: res = False; if response.status == 200: return res我认为
请求
()方法将返回一个
响应
对象,但它仍然返回一个
请求
对象,要捕获
响
浏览 4
提问于2016-06-21
得票数 2
回答已采纳
1
回答
信号只在主线程中工作:
django
、
python-3.x
、
django-rest-framework
、
scrapy
、
scrapy-spider
但是,当我试图将刮伤脚本
与
python集成时,我没有得到输出。from django.views.decorators.csrf import csrf_exempt @csrf_exemp
浏览 1
提问于2018-10-16
得票数 2
1
回答
抓取LinkExtractor -限制每个
URL
爬行的页数
python
、
web-crawler
、
scrapy
、
limit
我试图限制抓取的CrawlSpider中每个
URL
的爬行页面数。我有一个start_urls的列表,我想对每个
URL
中的页面爬行的数量设置一个限制。filter_domain.pyfrom collections import defaultdict self.counter = defaultdict(int) @classm
浏览 1
提问于2015-12-24
得票数 7
1
回答
scrapy
从数据库生成
url
scrapy
在我的
scrapy
项目中,我必须从数据库中获取大量的urls,这些urls由另一个爬行器填充。通常,我将从数据库中获取urls并将它们设置为 蜘蛛的start_urls属性,但是在数据库中可能有成千上万的1000+,并且
url
可以随时更新。所以我想知道是否有可能为每个
请求
从数据库中读取一个?
浏览 15
提问于2016-07-29
得票数 0
回答已采纳
1
回答
如何在
Scrapy
start_
url
中找到当前的CrawlSpider?
python-3.x
、
scrapy
、
web-crawler
、
scrapy-spider
当从自己的脚本运行
Scrapy
(从DB加载
URL
并遵循这些网站上的所有内部链接)时,我会遇到一个小问题。我需要知道当前使用的是哪个start_
url
,因为我必须保持
与
数据库(SQL )的一致性。例如,当
Scrapy
启动并且start_urls正在被爬行,并且爬虫跟踪在那里找到的所有内部链接时,我以后只能确定当前访问的
URL
,而不是
Scrapy
开始运行的start_
url
。
scrapy
.
crawler
import
浏览 1
提问于2018-09-10
得票数 2
回答已采纳
9
回答
如何获取失败的
URL
?
python
、
web-scraping
、
report
、
scrapy
我是
scrapy
的新手,它是我所知道的令人惊叹的爬虫框架! 在我的项目中,我发送了超过90,000个
请求
,但其中一些
请求
失败了。我将日志级别设置为INFO,我只能看到一些统计信息,但看不到详细信息。例如,显示那些失败的
URL
。谢谢!
浏览 1
提问于2012-12-05
得票数 49
回答已采纳
1
回答
如何在风流DAG中运行状态1下退出死气沉沉
python
、
scrapy
、
airflow
、
directed-acyclic-graphs
我正试图退出
scrapy
,状态代码1处于异常状态。脚本正在通过DAG运行。但是,状态代码1没有退出该任务。try: sys.exit(1) 2019年-08-21 09:34:16,199 {bash_operator.py:127} INFO -
scr
浏览 1
提问于2019-08-21
得票数 2
2
回答
CrawlerRunner不使用钩针抓取页面
python
、
python-3.x
、
scrapy
、
aws-lambda
链接: import
scrapy
from
scrapy
.utils.project import get_project_settingsin urls: page =
浏览 0
提问于2019-01-29
得票数 0
1
回答
从
Scrapy
Pipeline发出非阻塞HTTP
请求
python
、
scrapy
据我所知,
Scrapy
是单线程的,但在网络端是异步的。我正在做一些需要从项目管道中调用外部资源的API的事情。有没有办法在不阻塞管道和减慢
Scrapy
爬行速度的情况下发出HTTP
请求
? 谢谢
浏览 5
提问于2017-01-13
得票数 2
1
回答
刮破的蜘蛛不能陷入不和谐
python
、
scrapy
我试图制造一个不和谐的刮刀来获取服务器的所有成员,但是我被卡在登录上了,但是我在页面的源代码中任何地方都找不到csrf令牌--也许这就是我得到这个错误的原因,因为有几个消息来源说它是必需的,但我不确定,这是我的蜘蛛造成问题的原因 name = "Recruteur" def start_requestsyield
scrapy
.Request(
url</
浏览 0
提问于2021-11-08
得票数 0
3
回答
Scrapy
pause/resume是如何工作的?
scrapy
+ '\n')from twisted.internet import reactorfrom
scrapy
, signal=signals.spider_closed)
crawler
.crawl(spider)log.start()我将DOWNLOAD_DELAY设置为10 s
浏览 0
提问于2015-03-04
得票数 8
2
回答
Scrapy
和
响应
状态码:如何检查?
python
、
scrapy
、
http-status-codes
我正在使用
scrapy
抓取我的网站地图,检查404,302和200个页面。但我似乎无法得到
响应
码。这是我到目前为止的代码: class TothegoSitemapHomesSpider(SitemapSpider[
crawler
_name] -a country=[country] -a domain=[domain] \nWith [
crawler
_name]:\n- tothego_homes_sp
浏览 0
提问于2012-03-14
得票数 19
回答已采纳
1
回答
尽管表单在
响应
中填写正确,但FormRequest不返回任何结果
python
、
python-3.x
、
web-scraping
、
scrapy
、
http-post
www.halifax.co.uk/branchfinder/search.asp)上抓取营业时间,但我一定是在FormRequest.from_response()调用中做错了什么,因为对FormRequest的
响应
似乎
与
最初的
响应
没有变化branch-finder-results-container"> </div></form> 这是我到目前为止的代
浏览 16
提问于2019-05-11
得票数 0
回答已采纳
2
回答
简单的爬行蜘蛛不会爬行
python
、
scrapy
import Selectorfrom
scrapy
.settings import Settingsfrom
scrapy
.http.request import Request name
浏览 1
提问于2013-12-03
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy爬取豆瓣热门电影
python爬虫实例——用scarpy框架爬取全部新浪新闻
Python爬虫:使用scrapy框架抓取360超清壁纸
scrapy爬取漫画
Scrapy框架的使用之Item Pipeline的用法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券