Scrapy:如何判断robots.txt是否存在

、、

我知道我可以使用python并发出一个robots.txt (S)请求来自己检查是否存在http文件。由于Scrapy检查和下载它是为了让爬虫遵守其中的规则，在爬虫类中是否有一个属性或方法或任何东西可以让我知道给定网站是否存在robots.txt来爬行？统计信息：请参阅here self.crawler.stats.inc_value(f'robotstxt/response_status_count/{response

浏览 41提问于2021-05-04得票数 1

回答已采纳

2回答

如何在启动刮伤外壳时禁用robots.txt？

、、、、

我使用Scrapy时，几个网站都没有问题，但是当机器人(robots.txt)不允许访问一个站点时，我会发现问题。如何通过Scrapy (忽略存在)禁用机器人检测？提前谢谢你。我说的不是Scrapy创建的项目，而是Scrapy命令：scrapy shell 'www.example.com'

浏览 2提问于2016-11-26得票数 11

回答已采纳

1回答

如何用Scrapy爬行本地HTML文件

、

我尝试用下面的代码爬行存储在桌面中的本地HTML文件，但是在爬行过程之前我遇到了以下错误，例如“没有这样的文件或目录：'/robots.txt'”。是否可以在本地计算机(Mac)中抓取本地HTML文件？如果可能的话，我应该如何设置"allowed_domains“和"start_urls”这样的参数？<GET file:///robots.txt> (failed 1 times): [Errno 2] No such fil

浏览 1提问于2018-11-15得票数 4

回答已采纳

1回答

对robots.txt的苛刻和尊重

、

我昨天发现Scrapy默认使用robots.txt文件(ROBOTSTXT_OBEY = True)。如果我用scrapy shell url请求一个URL，如果我得到了响应，这是否意味着url不受robots.txt的保护？

浏览 13提问于2019-03-22得票数 2

回答已采纳

1回答

无法正确启动Scrapy shell

、、、

我设法使用scrapy genspider name_of_spider生成了一个爬行器，但是当我输入scrapy shell时，我收到了以下结果。(venv) jacquelinewong@Jacquelines-MBP rent_apt % scrapy shell['scrapy.extensions.corestats.CoreStats', 'scrapy.exte

浏览 2提问于2020-05-29得票数 1

2回答

如何在Scrapy框架中使用RobotsTxtMiddleware？

、、

Scrapy框架有RobotsTxtMiddleware。它需要确保Scrapy尊重robots.txt。它需要在设置中设置ROBOTSTXT_OBEY = True，然后Scrapy将尊重robots.txt策略。我做了然后跑了蜘蛛。在调试中，我看到了对的请求。这是什么意思，它是如何工作的？我如何从robot.txt中看到和理解规则？

浏览 0提问于2015-05-23得票数 6

回答已采纳

2回答

调试:爬行(404)

、

这是我的密码：import scrapy name = 'SinaShares然后我得到一个错误： 2020-04-27 10:54:50 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://money.finance.sina.com.cn/robots.txt> (refer

浏览 2提问于2020-04-27得票数 0

回答已采纳

1回答

python刮伤管道突然失效

、、

']2017-04-24 14:14:15 [scrapy] INFO: Crawled 0 pages/robots.txt> (referer: None) 2017-04-24 14:14:20 [scrapy] DEBUG: Crawled (200) <GET http://www.theglobeandmail.com] INFO: Closing spider

浏览 2提问于2017-04-24得票数 0

1回答

如何捕捉被robots.txt禁止的？

、

如何在scrapy中捕获被robots.txt禁止的请求？通常情况下，这似乎会被自动忽略，即输出中没有任何内容，所以我真的不知道这些urls发生了什么。理想情况下，如果爬行一个url导致了这个被robots.txt禁止的错误，我想输出一个类似{'url': url, 'status': 'forbidden by robots.txt'}的记录。scrapy新手。感谢任何人的帮助。

浏览 1提问于2017-05-26得票数 1

1回答

如何在本地文件上使用Scrapy而不获取robot.txt错误？

、

我发现了一些与robots.txt文件相关的错误：2020-07-13 23:58:43 [scr

浏览 2提问于2020-07-17得票数 1

回答已采纳

2回答

蜘蛛不会转到下一页

、、、

蜘蛛代码：from crawler.items import Item name = 'blabla' yield scrapy.Request('http:(url, callback=self.parse) 问题:即使下一个page_page

浏览 1提问于2016-08-24得票数 0

回答已采纳

1回答

对于Scrapy，如何从robots.txt文件中检查单个页面上的链接？

、

使用Scrapy，我将刮除单个页面(通过脚本，而不是从控制台)来检查这个页面上的所有链接(如果robots.txt文件允许的话)。在scrapy.robotstxt.RobotParser抽象基类中，我找到了方法，但我不知道如何使用它。AttributeError: 'TestSpider' object has no attribute 'crawler'# Obey robots.txt我的解决

浏览 0提问于2020-10-23得票数 3

1回答

Scrapy找不到现有的url

、

] DEBUG: Redirecting (301) to <GET https://www.atsu.edu/robots.txt> from <GET http://WWW.ATSU.EDU/robots.txt> 2019-10-01 15:41:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.atsu.edu/robots.txt<

浏览 1提问于2019-10-01得票数 1

回答已采纳

1回答

为什么Scrapy在抓取主url之前先抓取一些其他的url？

、、、

我想要抓取的主http://192.168.1.1/robots.txt是http://192.168.1.1/adslconfig.htm，但是它首先尝试抓取这个url URL，并且失败了，状态代码为如何防止这两次不成功的抓取，并用第一次尝试抓取主URL？ ? import scrapy handle_httpstatus_list = [401] name = &

浏览 17提问于2021-09-28得票数 0

1回答

覆盖刮伤日志(尤指)。来自中间件

、、、

在我有自己的json日志格式的项目中，我使用了Scrapy。2017-10-03 19:08:57 [scrapy.downloadermiddlewares.robotstxt] ERROR:Error downloading <GET http://www.somedomain

浏览 0提问于2017-10-03得票数 0

1回答

抓取AWS博客网站时Scrapy不返回任何内容

、

我想可能是我的xpath出了问题，但不确定如何修复。import scrapy name = 'awsblog' print(url) imp

浏览 17提问于2019-11-06得票数 0

回答已采纳

2回答

飞溅问题(d总线，QSslSocket，libpng)

、、、、

我正在尝试通过scrapinghub/splash Docker映像使用Splash，并在第一个请求(即/robots.txt端点)之后发出一些警告，因为我正在为scrapy库使用scrapy-splash[-] "172.17.0.1" - - [18/Jan/2018:00:05:12 +0000] "GET /robots.txt HTTP/1.1" 404 153 "-" "Sc

浏览 0提问于2018-01-18得票数 2

回答已采纳

1回答

Robots.txt和允许？

、、、、

所以我刚开始网络爬行，很难理解特定的robots.txt文件。那么，这是否意味着该网站允许所有页面被爬行？但是，当我尝试在sitemap.xml (或另一个站点网址)上使用scrapy进行基本抓取时，即我收到了一个403 HTTP的回复，我假设这是从链接中得到的，这意味着网站不想让你刮.那么这个网站的robots.txt到底是什么意思呢？

浏览 0提问于2017-06-08得票数 1

1回答

如果站点由于robots.txt而没有爬行，则获取响应

、、、

我正在尝试抓取用户定义的网站，但无法抓取robots.txt正在阻止爬行的站点。这很好，但我想得到的响应，我可以告诉用户，“您输入的网站不允许爬行，因为robots.txt”。还有其他三种类型的预防，我得到了相应的代码和处理，但只有这个异常(即通过robots.txt预防)，我无法处理。因此，请让我知道是否有任何方法来处理这一情况，并显示适当的错误信息。我正在使用Python3.5.2和Scrapy1.5

浏览 0提问于2018-05-29得票数 1

回答已采纳

2回答

Requests / BeautifulSoup VS robots.txt

、、、、

现在我已经用Scrapy构建了它，在所有的调整(包括不遵守robots.txt)之后，它工作得很好，并且它自动地运行在数据挖掘的循环上。现在我需要做一些东西，它将通过输入抓取单个页面问题是，我唯一能够访问的页面是robots.txt页面，并且我无法在网上找到任何关于robots.txt的信息。有没有关于如何使用BS或Requests的教程？

浏览 35提问于2019-12-05得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在启动刮伤外壳时禁用robots.txt？

如何用Scrapy爬行本地HTML文件

对robots.txt的苛刻和尊重

无法正确启动Scrapy shell

如何在Scrapy框架中使用RobotsTxtMiddleware？

调试:爬行(404)

python刮伤管道突然失效

如何捕捉被robots.txt禁止的？

如何在本地文件上使用Scrapy而不获取robot.txt错误？

蜘蛛不会转到下一页

对于Scrapy，如何从robots.txt文件中检查单个页面上的链接？

Scrapy找不到现有的url

为什么Scrapy在抓取主url之前先抓取一些其他的url？

覆盖刮伤日志(尤指)。来自中间件

抓取AWS博客网站时Scrapy不返回任何内容

飞溅问题(d总线，QSslSocket，libpng)

Robots.txt和允许？

如果站点由于robots.txt而没有爬行，则获取响应

Requests / BeautifulSoup VS robots.txt

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐