robots禁止二级域名

基础概念

robots.txt 是一个位于网站根目录下的文本文件，用于告诉网络爬虫哪些页面可以抓取，哪些页面不能抓取。它是由早期的搜索引擎爬虫（如Googlebot）所使用的协议。

类型

允许（Allow）：指定某些页面可以被爬虫抓取。
禁止（Disallow）：指定某些页面不能被爬虫抓取。
用户代理（User-agent）：指定该规则适用于哪个爬虫。

应用场景

保护敏感数据：例如，禁止爬虫抓取包含用户个人信息的页面。
防止过度抓取：例如，限制爬虫对某些高流量页面的抓取频率。
优化网站性能：通过限制不必要的爬取，提高网站的响应速度。

问题及解决方法

问题：robots.txt禁止二级域名

假设你的网站结构如下：

example.com
├── index.html
└── blog.example.com
    └── index.html

如果你在 example.com/robots.txt 中添加了以下内容：

User-agent: *
Disallow: /blog.example.com/

这会导致二级域名 blog.example.com 被禁止抓取。

原因

robots.txt 文件是相对于网站根目录的路径进行解析的。因此，Disallow: /blog.example.com/ 实际上是在禁止 example.com/blog.example.com/ 这个路径，而不是 blog.example.com 这个域名。

解决方法

在二级域名根目录下添加robots.txt：在 blog.example.com 的根目录下创建一个 robots.txt 文件，并在其中添加禁止规则。
在二级域名根目录下添加robots.txt：在 blog.example.com 的根目录下创建一个 robots.txt 文件，并在其中添加禁止规则。
使用通配符：如果你希望禁止所有二级域名，可以在主域名的 robots.txt 中使用通配符。
使用通配符：如果你希望禁止所有二级域名，可以在主域名的 robots.txt 中使用通配符。

示例代码

假设你在 blog.example.com/robots.txt 中添加了以下内容：

User-agent: *
Disallow: /

这样，blog.example.com 下的所有页面都会被禁止抓取。

参考链接

希望这些信息对你有所帮助！

页面内容是否对你有帮助？

有帮助

没帮助

为什么robots.txt更改后谷歌还是提示robots封禁？

、

前几天上线了一个新网站http://www.golf-clothes.com 因为一开始在编辑模板以及填充内容，就设置了robots禁止蜘蛛访问，为什么我现在修改了robots文件，好几天了谷歌还是提示robots禁止呢？

浏览 147提问于2020-10-15

1回答

如果header x- robots.txt设置为noindex，no follow，是否有必要使用robots？

、、、

我正在尝试阻止我的网站被索引/列出：Header set X-Robots-Tag "noindex, nofollow"Disallow: / 添加robots.txt有什么坏处吗？

浏览 4提问于2016-08-19得票数 0

1回答

Google不小心索引了我的网站子文件夹

、、

我正在使用WordPress，出于测试目的，我制作了一个子文件夹作为测试博客，我使用我的主博客数据库进行测试博客，我不鼓励搜索引擎对其进行索引，但过了一段时间后，我用谷歌搜索了我博客的一个主题，我发现已经索引的链接来自测试博客，然后我检查了搜索控制台，有一堆来自这个测试博客的链接生成了404，因为我已经删除了这个子文件夹...那么google会不会用测试博客链接来替换我的博客链接呢？以及如何删除这些404并阻止google对此子文件夹进行索引和爬行。Www.myblog.com/子文件夹/主题www.myblog.com/topic

浏览 8提问于2018-07-12得票数 0

4回答

如何禁止来自robots.txt的特定页面

我会在robots.txt文件中这样做吗？禁止: /wp-admin 我如何定制到特定的页面，如：

浏览 0提问于2010-08-15得票数 33

1回答

如何捕捉被robots.txt禁止的？

、

如何在scrapy中捕获被robots.txt禁止的请求？通常情况下，这似乎会被自动忽略，即输出中没有任何内容，所以我真的不知道这些urls发生了什么。理想情况下，如果爬行一个url导致了这个被robots.txt禁止的错误，我想输出一个类似{'url': url, 'status': 'forbidden by robots.txt'}的记录。

浏览 1提问于2017-05-26得票数 1

3回答

隐藏特定文件夹及其子文件夹和文件？

、

我想在public_html中隐藏一个名为( robots.txt )的文件夹，使搜索引擎看不到它的所有子文件夹和文件，我是否必须将文件放在根文件夹(/)中，并像下面这样处理beta中的内容Disallow: /public_html/beta将robots.txt放在public_html中，并按如下所示执行内容Disallow: /beta

浏览 1提问于2013-01-10得票数 0

1回答

尝试从Github页面抓取数据

、

127.0.0.1:60232017-01-18 02:29:46 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt

浏览 2提问于2017-01-18得票数 2

1回答

Robots.txt阻止对所有https://页面的访问

阻止所有机器人访问https:// pages的语法是什么？我有一个旧网站，现在没有SSL，我想阻止访问所有https://页面

浏览 2提问于2009-04-25得票数 3

回答已采纳

1回答

为ASP.NET MVC站点创建robots.txt

、、、

我正在为我的网站创建一个robots.txt文件，但是查看我的项目结构，我不确定要禁止什么。我是否需要禁止标准的.NET MVC目录和文件，如/App_Data，/web.config，/Controllers，/Models，/Global.asax？或者那些还没有被索引的内容呢？如果我想禁止一个页面，我应该禁止/Views/MyPage/Index.cshtml还是/MyPage？另外，当在robots<

浏览 1提问于2011-10-29得票数 2

回答已采纳

1回答

想要通过htaccess将urls添加到robots.txt

、、

我有一个可湿性粉剂网站，目前通过一个插件通过.htaccess重定向几个链接，并想通过相同的htaccess文件添加原始的重定向链接到robots.txt。探测-pre-attack-1//send-pre/重定向/探测-pre-attack-3//send-pre/用户代理：* 禁止:/probing

浏览 3提问于2014-10-15得票数 0

1回答