开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

robots禁止二级域名

基础概念

robots.txt 是一个位于网站根目录下的文本文件，用于告诉网络爬虫哪些页面可以抓取，哪些页面不能抓取。它是由早期的搜索引擎爬虫（如Googlebot）所使用的协议。

相关优势

保护网站资源：通过限制不必要的爬取，可以减少服务器负载。
保护隐私：可以防止敏感信息被爬虫抓取。
优化爬虫抓取：指导爬虫更高效地抓取网站内容。

类型

允许（Allow）：指定某些页面可以被爬虫抓取。
禁止（Disallow）：指定某些页面不能被爬虫抓取。
用户代理（User-agent）：指定该规则适用于哪个爬虫。

应用场景

保护敏感数据：例如，禁止爬虫抓取包含用户个人信息的页面。
防止过度抓取：例如，限制爬虫对某些高流量页面的抓取频率。
优化网站性能：通过限制不必要的爬取，提高网站的响应速度。

问题及解决方法

问题：robots.txt禁止二级域名

假设你的网站结构如下：

example.com
├── index.html
└── blog.example.com
    └── index.html

如果你在 example.com/robots.txt 中添加了以下内容：

User-agent: *
Disallow: /blog.example.com/

这会导致二级域名 blog.example.com 被禁止抓取。

原因

robots.txt 文件是相对于网站根目录的路径进行解析的。因此，Disallow: /blog.example.com/ 实际上是在禁止 example.com/blog.example.com/ 这个路径，而不是 blog.example.com 这个域名。

解决方法

在二级域名根目录下添加robots.txt：在 blog.example.com 的根目录下创建一个 robots.txt 文件，并在其中添加禁止规则。
在二级域名根目录下添加robots.txt：在 blog.example.com 的根目录下创建一个 robots.txt 文件，并在其中添加禁止规则。
使用通配符：如果你希望禁止所有二级域名，可以在主域名的 robots.txt 中使用通配符。
使用通配符：如果你希望禁止所有二级域名，可以在主域名的 robots.txt 中使用通配符。

示例代码

假设你在 blog.example.com/robots.txt 中添加了以下内容：

User-agent: *
Disallow: /

这样，blog.example.com 下的所有页面都会被禁止抓取。

参考链接

希望这些信息对你有所帮助！

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Robots.txt – 禁止爬虫

robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法：空行、注释行（以#打头）、规则行。规则行的格式为：Field: value。...User-Agent: robot-name User-Agent: * Disallow和Allow行 Disallow: /path Disallow: # 空字符串，起通配符效果，全禁止...robots.txt的补充如果你没有对网站根目录的写入权限（无法建立robots.txt文件），或你想要某个指定的网页不被搜索引擎收录，可以使用元标签阻止爬虫访问： name="robots" content...百度工程师跑出来说360违反robots协议，偷窃百度内容。...User-agent: JikeSpider User-agent: Sosospider Allow: / User-agent: * Disallow: / 也就是说对360爬虫而言，应该走最后一条规则，也就是禁止抓取百度知道所有内容

2.1K3 0

如何设置让网站禁止被爬虫收录？robots.txt

robot.txt只是爬虫禁抓协议，user-agent表示禁止哪个爬虫，disallow告诉爬出那个禁止抓取的目录。如果爬虫够友好的话，会遵守网站的robot.txt内容。...1、通过 robots.txt 文件屏蔽可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议： User-agent: Baiduspider Disallow...: * Disallow: / 2、通过 meta tag 屏蔽在所有的网页头部文件添加，添加如下语句： 3、通过服务器（如：Linux/nginx ）配置文件设置直接过滤 spider/robots...小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，

1.9K3 0

Robots.txt和Robots META

Robots Text File Robots.txt robots.txt是一套指示搜索引擎（蜘蛛）如何抓取你的网页内容的一张地图，他告诉蜘蛛哪些需要抓取，哪些不要抓取（当然，这只是针对那些遵守这个协定的搜索引擎...robots.txt文件必须存放在网站的根目录下。 ...robots.txt中包括两部分主要内容： User-agent:* Disallow: User-agent代表搜索引擎，可以指定特定的搜索引擎，星号表示所有； Disallow，如果用不带/...Tag 对于不能上传Robots.txt文件的用户，我们仍可以通过Robots Meta Tag来实现对于搜索引擎的屏蔽。...robots" content="robots-term" /> robots-term是一系列逗号分隔的字符，主要有以下几个值：noindex,nofollow,index

7982 0

Robots协议

做淘宝客类型的网站，我们一般是把产品放到内页，然后禁止蜘蛛爬取这个页面。...他们做淘宝客网站，链接都是做了处理的，而且通过Robots来控制蜘蛛禁止抓取。后边按照这个思路，我把我的网站的链接进行了处理，然后进行了Robots抓取的处理，后边这个站盈利还是不错的。...常用符号： User-agent:定义搜索引擎的类型 Disallow:定义禁止搜索引擎收录的地址 Allow:定义允许搜索引擎收录的地址 *：匹配0或多个任意字符 $：匹配行结束符二：Robots...加上Disallow后，意思是：除了可以爬取这个外，其余的都禁止爬取。...例如禁止Baiduspider抓取网站上所有的jpg图片。

1.4K7 0

Robots & SiteMap

在线生成SiteMap robots 作用减少百度蜘蛛在站内的无谓爬取，避免爬取一些内部程序文件，比如xxx.php 下面是我网站的robots.txt User-agent: * Disallow...如何使我们的Robots与Sitemap起作用？等，是不可能等的，这辈子都不可能等的！...要去百度站长平台分别提交Robots、Sitemap Robots： Sitemap：据说 Sitemap收录大概需要7天！

1.4K0 0

robots协议

robots协议存放位置 robots.txt是存放在站点根目录下的一个纯文本文件。...该文件可以指定搜索引擎爬虫只抓取指定的内容，或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。...仅允许特定的机器人：（name_spider用真实名字代替） User-agent: name_spider Allow: 拦截所有的机器人： User-agent: * Disallow: / 禁止所有机器人访问特定目录...： User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/ 仅禁止坏爬虫访问特定目录...（BadBot用真实的名字代替）： User-agent: BadBot Disallow: /private/ 禁止所有机器人访问特定文件类型[2]： User-agent: * Disallow

4321 0

robots协议

robots.txt文件定义了爬虫在爬取该网站时存在的限制，哪些部分爬虫可以爬取，哪些不可以爬取（防君子不防小人）更多robots.txt协议信息参考：www.robotstxt.org... 在爬取网站之前，检查robots.txt文件可以最小化爬虫被封禁的可能下面是百度robots.txt协议的一部分：https://www.baidu.com/robots.txt...在“robots.txt“文件中，如果有多条 User-agent记录，说明有多个robot会受到该协议的约束。所以，“robots.txt”文件中至少要有一条User- agent记录。...Disallow: / 禁止访问的路径例如，Disallow: /home/news/data/，代表爬虫不能访问/home/news/data/后的所有URL，但能访问/home/news...nbsp; Allow：/允许访问的路径例如，Disallow：/home/后面有news、video、image等多个路径接着使用Allow：/home/news，代表禁止访问

6891 0

如何实现动静分离

，并且给这个二级域名套了一层 CDN。...robots文件 location ~ (robots.txt) { rewrite /robots.txt /resrobots.txt last; # 在网站根目录新增一个resrobots.txt...，内容和七牛CDN类似，禁止搜索引擎抓取非静态资源（resrobots.txt内容参考：https://zhang.ge/5104.html） } # 如果通过静态域名访问的是非静态资源，比如访问了我们的文章页面...robots文件 location ~ (robots.txt) { rewrite /robots.txt /resrobots.txt last...; # 在网站根目录新增一个resrobots.txt，内容和七牛CDN类似，禁止搜索引擎抓取非静态资源（resrobots.txt内容参考：https://zhang.ge/5104.html）

2K2 0

网站页面优化：ROBOTS文件和META ROBOTS

不需要任何技术和经验即可充分利用robots.txt强大功能，你可以通过查看网站源码找到robots.txt。首先让我们看看robots.txt文件是什么为何如此重要。...robots.txt文件，尽管一个robots文件包含多行用户代理和指令（即禁止，允许，爬行延迟等）。...下面这个例子在robots.txt文件中，每组用户代理指令显示为离散集，由换行符分隔：在多个用户代理指令的robots.txt文件中，每个禁止或允许规则仅适用于在该特定行分隔符集中指定的用户代理。...优化robots.txt的方式取决于你网站上的内容，使用robots.txt有各种各样的方法。...测试和验证robots.txt 虽然我们可以通过浏览器访问robots.txt网址查看robots.txt的内容，但测试和验证它的最佳方法是通过GOOGLE SEARCH CONSOLE的robots.txt

2K5 0

详解robots.txt和Robots META标签

为了解决这个问题,ROBOTS开发界提供了两个办法：一个是robots.txt,另一个是The Robots meta标签。...下面是一些robots.txt基本的用法： l 禁止所有搜索引擎访问网站的任何部分： User-agent: * Disallow: / l 允许所有的robot访问 User-agent:...* Disallow: 或者也可以建一个空文件 “/robots.txt” file l 禁止所有搜索引擎访问网站的几个部分（下例中的cgi-bin、tmp、private目录） User-agent...: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ l 禁止某个搜索引擎的访问（下例中的BadBot） User-agent...: GoogleBot 正确的应该是： User-agent: GoogleBot Disallow: * l 把多个禁止命令放在一行中：例如,错误地写成 Disallow: /css

1.2K1 0

robots书写说明：

例：允许抓取news目录，参考写法：Allow: /news “Disallow”禁止抓取。...例：禁止抓取admin目录，参考写法：Disallow: /admin 发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/113887.html原文链接：https:/

4322 0

简单的robots协议

什么是robots协议？...robots协议是网站和搜索引擎之间的协议，你可以在文件中规定哪些文件不想给搜索引擎爬取到，又或者那些可以给爬取到，每次搜索引擎爬取内容的时候，都会看当前网站有没有robots.txt的文件，如果有，将...robots.txt文件内指定可以访问或者不可以访问的页面保留或者过滤掉。...robots.txt存在与网站的根目录，如果网站名叫做http://www.test.com/，robots文件存在于根目录的话，可以通过http://www.test.com/robots.txt访问...robots文件的内容！

1K1 0

robots txt防爬虫

，大佬们肯定不愿意啊，就需要禁止爬虫爬取。...robots.txt中的参数含义： User-agent：描述搜索引擎spider的名字。...在“robots.txt“文件中，如果有多条 User-agent记录，说明有多个robot会受到该协议的约束。所以，“robots.txt”文件中至少要有一条User- agent记录。...Disallow: / 禁止访问的路径例如: Disallow: /home/news/data/，代表爬虫不能访问/home/news/data/后的所有URL，但能访问/home/news/data123...前者是精确屏蔽，后者是相对屏蔽 3.Allow：/允许访问的路径例如: Disallow：/home/后面有news、video、image等多个路径接着使用Allow：/home/news，代表禁止访问

1.1K1 0

Robots.txt指南

例如"Disallow: email.htm"对文件的访问进行了声明，禁止Spiders下载网站上的email.htm文件。...User-agent: * 　　Disallow: / 　　表明：禁止所有搜索引擎对网站下所有网页的访问。　　...User-agent: * 　　Disallow: /cgi-bin/Disallow: /images/ 　　表明：禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。...User-agent: Roverdog 　　Disallow: / 　　表明：禁止Roverdog访问网站上的任何文件。　　...User-agent: Googlebot Disallow: cheese.htm 　　表明：禁止Google的Googlebot访问其网站下的cheese.htm文件。

1.5K2 0

poj 2632 Crashing Robots

http://poj.org/problem?id=2632 题意：机器人是否撞墙撞车分析：这里不同的就是机器人每次的行为都必须判断一次，出现问题后马上退出...

7046 0

hihoCoder #1498 : Diligent Robots【数学】

#1498 : Diligent Robots 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 There are N jobs to be finished....Luckily a robot may build more robots identical to itself....Note two or more robots working on the same job or building the same robot won't accelerate the progress

6984 0

robots协议标准

前两天三巨头又同时宣布，共同遵守的 robots.txt文件标准。...三家都支持的robots文件记录包括： Disallow - 告诉蜘蛛不要抓取某些文件或目录。...如下面一段代码将禁止蜘蛛抓取所有htm文件： User-agent: * Disallow: /*.htm Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里，格式为：Sitemap: Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分，或者换个角度，告诉蜘蛛哪些部分是页面的主要内容（想被检索的内容）。...但抓取robots.txt文件时却发生超时之类的错误，可能导致搜索引擎不收录网站，因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容，这与确认文件不存在是不一样的。

8544 0

poj -2632 Crashing Robots

id=2632 Crashing Robots Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 7470 Accepted...: 3265 Description In a modernized warehouse, robots are used to fetch the goods....Assume there are N robots, numbered from 1 through N....No two robots start at the same position....Robot i crashes into robot j, if robots i and j crash, and i is the moving robot.

3353 0

域名备案&robots协议

目录 1 域名备案个人备案公司备案备案完成之后了解更多 2 robots.txt 这篇文章不谈技术，聊一聊笔者在网站建设一些需要注意的点。...msctype=email&mscareaid=cn&mscsiteid=cn&mscmsgid=6530120030400482291&&spm=a2c4k.13817982.zh-cnc.20& 2 robots.txt...robots.txt 是一种遵照漫游器排除标准创建的纯文本文件，由一条或多条规则组成。每条规则可禁止（或允许）特定抓取工具抓取相应网站中的指定文件路径。...来看看博客园大大的robots协议，这个就随意了：爬虫这个东西是把双刃剑，爬多了对服务器有影响，爬一些权限信息涉及到数据隐私，但是合理的爬一爬可以增加网站流量。这是一个度的问题，大家把水端平就好。

22.3K2 0

robots.txt详解

浏览器输入主域名/robots.txt robots.txt的作用 robots.txt 文件规定了搜索引擎抓取工具可以访问网站上的哪些网址，并不禁止搜索引擎将某个网页纳入索引。...如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页，则此网页仍可能会被编入索引尽管 Google 不会抓取被 robots.txt 文件屏蔽的内容或将其编入索引，但如果网络上的其他位置有链接指向被禁止访问的网址...测试工具：https://www.google.com/webmasters/tools/robots-testing-tool 常用的robots规则 # 禁止所有搜索引擎抓取整个网站 User-agent...: * Disallow: / # 禁止所有搜索引擎抓取某一目录及其内容（禁止抓取的目录字符串可以出现在路径中的任何位置，因此 Disallow: /junk/ 与 https://example.com...User-agent: Googlebot-Image Disallow: / # 禁止谷歌抓取所有 .gif 文件。

2.8K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭