腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
:
如何
判断
robots.txt
是否
存在
、
、
我知道我可以使用python并发出一个
robots.txt
(S)请求来自己检查
是否
存在
http文件。由于
Scrapy
检查和下载它是为了让爬虫遵守其中的规则,在爬虫类中
是否
有一个属性或方法或任何东西可以让我知道给定网站
是否
存在
robots.txt
来爬行?统计信息: 请参阅here self.crawler.stats.inc_value(f'robotstxt/response_status_count/{response
浏览 41
提问于2021-05-04
得票数 1
回答已采纳
2
回答
如何
在启动刮伤外壳时禁用
robots.txt
?
、
、
、
、
我使用
Scrapy
时,几个网站都没有问题,但是当机器人(
robots.txt
)不允许访问一个站点时,我会发现问题。
如何
通过
Scrapy
(忽略
存在
)禁用机器人检测?提前谢谢你。我说的不是
Scrapy
创建的项目,而是
Scrapy
命令:
scrapy
shell 'www.example.com'
浏览 2
提问于2016-11-26
得票数 11
回答已采纳
1
回答
如何
用
Scrapy
爬行本地HTML文件
、
我尝试用下面的代码爬行存储在桌面中的本地HTML文件,但是在爬行过程之前我遇到了以下错误,例如“没有这样的文件或目录:'/
robots.txt
'”。
是否
可以在本地计算机(Mac)中抓取本地HTML文件? 如果可能的话,我应该
如何
设置"allowed_domains“和"start_urls”这样的参数?<GET file:///
robots.txt
> (failed 1 times): [Errno 2] No such fil
浏览 1
提问于2018-11-15
得票数 4
回答已采纳
1
回答
对
robots.txt
的苛刻和尊重
、
我昨天发现
Scrapy
默认使用
robots.txt
文件(ROBOTSTXT_OBEY = True)。如果我用
scrapy
shell url请求一个URL,如果我得到了响应,这
是否
意味着url不受
robots.txt
的保护?
浏览 13
提问于2019-03-22
得票数 2
回答已采纳
1
回答
无法正确启动
Scrapy
shell
、
、
、
我设法使用
scrapy
genspider name_of_spider生成了一个爬行器,但是当我输入
scrapy
shell时,我收到了以下结果。(venv) jacquelinewong@Jacquelines-MBP rent_apt %
scrapy
shell['
scrapy
.extensions.corestats.CoreStats', '
scrapy
.exte
浏览 2
提问于2020-05-29
得票数 1
2
回答
如何
在
Scrapy
框架中使用RobotsTxtMiddleware?
、
、
Scrapy
框架有RobotsTxtMiddleware。它需要确保
Scrapy
尊重
robots.txt
。它需要在设置中设置ROBOTSTXT_OBEY = True,然后
Scrapy
将尊重
robots.txt
策略。我做了然后跑了蜘蛛。在调试中,我看到了对的请求。 这是什么意思,它是
如何
工作的?我
如何
从robot.txt中看到和理解规则?
浏览 0
提问于2015-05-23
得票数 6
回答已采纳
2
回答
调试:爬行(404)
、
这是我的密码:import
scrapy
name = 'SinaShares然后我得到一个错误: 2020-04-27 10:54:50 [
scrapy
.core.engine] DEBUG: Crawled (404) <GET http://money.finance.sina.com.cn/
robots.txt
> (refer
浏览 2
提问于2020-04-27
得票数 0
回答已采纳
1
回答
python刮伤管道突然失效
、
、
']2017-04-24 14:14:15 [
scrapy
] INFO: Crawled 0 pages/
robots.txt
> (referer: None) 2017-04-24 14:14:20 [
scrapy
] DEBUG: Crawled (200) <GET http://www.theglobeandmail.com] INFO: Closing spider
浏览 2
提问于2017-04-24
得票数 0
1
回答
如何
捕捉被
robots.txt
禁止的?
、
如何
在
scrapy
中捕获被
robots.txt
禁止的请求?通常情况下,这似乎会被自动忽略,即输出中没有任何内容,所以我真的不知道这些urls发生了什么。理想情况下,如果爬行一个url导致了这个被
robots.txt
禁止的错误,我想输出一个类似{'url': url, 'status': 'forbidden by
robots.txt
'}的记录。
scrapy
新手。感谢任何人的帮助。
浏览 1
提问于2017-05-26
得票数 1
1
回答
如何
在本地文件上使用
Scrapy
而不获取robot.txt错误?
、
我发现了一些与
robots.txt
文件相关的错误:2020-07-13 23:58:43 [
scr
浏览 2
提问于2020-07-17
得票数 1
回答已采纳
2
回答
蜘蛛不会转到下一页
、
、
、
蜘蛛代码:from crawler.items import Item name = 'blabla' yield
scrapy
.Request('http:(url, callback=self.parse) 问题:即使下一个page_page
浏览 1
提问于2016-08-24
得票数 0
回答已采纳
1
回答
对于
Scrapy
,
如何
从
robots.txt
文件中检查单个页面上的链接?
、
使用
Scrapy
,我将刮除单个页面(通过脚本,而不是从控制台)来检查这个页面上的所有链接(如果
robots.txt
文件允许的话)。在
scrapy
.robotstxt.RobotParser抽象基类中,我找到了方法,但我不知道
如何
使用它。AttributeError: 'TestSpider' object has no attribute 'crawler'# Obey
robots.txt
我的解决
浏览 0
提问于2020-10-23
得票数 3
1
回答
Scrapy
找不到现有的url
、
] DEBUG: Redirecting (301) to <GET https://www.atsu.edu/
robots.txt
> from <GET http://WWW.ATSU.EDU/
robots.txt
> 2019-10-01 15:41:05 [
scrapy
.core.engine] DEBUG: Crawled (200) <GET https://www.atsu.edu/
robots.txt<
浏览 1
提问于2019-10-01
得票数 1
回答已采纳
1
回答
为什么
Scrapy
在抓取主url之前先抓取一些其他的url?
、
、
、
我想要抓取的主http://192.168.1.1/
robots.txt
是http://192.168.1.1/adslconfig.htm,但是它首先尝试抓取这个url URL,并且失败了,状态代码为
如何
防止这两次不成功的抓取,并用第一次尝试抓取主URL? ? import
scrapy
handle_httpstatus_list = [401] name = &
浏览 17
提问于2021-09-28
得票数 0
1
回答
覆盖刮伤日志(尤指)。来自中间件
、
、
、
在我有自己的json日志格式的项目中,我使用了
Scrapy
。2017-10-03 19:08:57 [
scrapy
.downloadermiddlewares.robotstxt] ERROR:Error downloading <GET http://www.somedomain
浏览 0
提问于2017-10-03
得票数 0
1
回答
抓取AWS博客网站时
Scrapy
不返回任何内容
、
我想可能是我的xpath出了问题,但不确定
如何
修复。import
scrapy
name = 'awsblog' print(url) imp
浏览 17
提问于2019-11-06
得票数 0
回答已采纳
2
回答
飞溅问题(d总线,QSslSocket,libpng)
、
、
、
、
我正在尝试通过scrapinghub/splash Docker映像使用Splash,并在第一个请求(即/
robots.txt
端点)之后发出一些警告,因为我正在为
scrapy
库使用
scrapy
-splash[-] "172.17.0.1" - - [18/Jan/2018:00:05:12 +0000] "GET /
robots.txt
HTTP/1.1" 404 153 "-" "
Sc
浏览 0
提问于2018-01-18
得票数 2
回答已采纳
1
回答
Robots.txt
和允许?
、
、
、
、
所以我刚开始网络爬行,很难理解特定的
robots.txt
文件。那么,这
是否
意味着该网站允许所有页面被爬行?但是,当我尝试在sitemap.xml (或另一个站点网址)上使用
scrapy
进行基本抓取时,即我收到了一个403 HTTP的回复,我假设这是从链接中得到的,这意味着网站不想让你刮.那么这个网站的
robots.txt
到底是什么意思呢?
浏览 0
提问于2017-06-08
得票数 1
1
回答
如果站点由于
robots.txt
而没有爬行,则获取响应
、
、
、
我正在尝试抓取用户定义的网站,但无法抓取
robots.txt
正在阻止爬行的站点。这很好,但我想得到的响应,我可以告诉用户,“您输入的网站不允许爬行,因为
robots.txt
”。还有其他三种类型的预防,我得到了相应的代码和处理,但只有这个异常(即通过
robots.txt
预防),我无法处理。因此,请让我知道
是否
有任何方法来处理这一情况,并显示适当的错误信息。我正在使用Python3.5.2和
Scrapy
1.5
浏览 0
提问于2018-05-29
得票数 1
回答已采纳
2
回答
Requests / BeautifulSoup VS
robots.txt
、
、
、
、
现在我已经用
Scrapy
构建了它,在所有的调整(包括不遵守
robots.txt
)之后,它工作得很好,并且它自动地运行在数据挖掘的循环上。现在我需要做一些东西,它将通过输入抓取单个页面 问题是,我唯一能够访问的页面是
robots.txt
页面,并且我无法在网上找到任何关于
robots.txt
的信息。有没有关于
如何
使用BS或Requests的教程?
浏览 35
提问于2019-12-05
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 判断文件/目录是否存在
在shell中如何判断HDFS中的文件目录是否存在
VBA代码如何判断单元格区域中是否存在重复值
JMeter,判断字符串是否存在该集合
JS如何判断是否是函数
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券