开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何禁止robots.txt中的特定页面

禁止robots.txt中的特定页面可以通过以下几种方式实现：

使用Disallow指令：在robots.txt文件中使用Disallow指令可以禁止搜索引擎爬虫访问特定页面。例如，如果要禁止爬虫访问网站的/contact页面，可以在robots.txt文件中添加以下内容：User-agent: * Disallow: /contact这样，搜索引擎爬虫就会遵守这个规则，不会访问/contact页面。
使用Noindex元标签：在特定页面的HTML代码中添加<meta name="robots" content="noindex">元标签可以告诉搜索引擎不要索引该页面。例如，在/contact页面的HTML代码中添加以下元标签：<meta name="robots" content="noindex">这样，搜索引擎就会忽略该页面。
使用密码保护：对于需要更高级别的保护的页面，可以使用密码保护功能。这样，只有知道密码的用户才能访问该页面，搜索引擎爬虫也无法访问。具体的密码保护方法可以根据使用的开发框架或CMS系统而定。

需要注意的是，以上方法只是告诉搜索引擎不要访问或索引特定页面，并不能完全阻止非法访问。如果需要更严格的访问控制，可以考虑使用其他安全措施，如身份验证、访问控制列表等。

腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
腾讯云Web应用防火墙（WAF）：https://cloud.tencent.com/product/waf
腾讯云安全组：https://cloud.tencent.com/product/security-group
腾讯云访问管理（CAM）：https://cloud.tencent.com/product/cam

相关搜索:禁止ip访问特定页面禁止在特定页面上滚动如何禁止.txt文件中的特定号码？如何禁止wordpress密码中的特定特殊字符如何禁止使用Rubocop调用特定的函数？如何禁止显示特定类型的警告消息？Robots.txt禁止所有内容,只允许网站/网页的特定部分.Ultraseek和FAST等爬虫是否支持"允许"？禁止使用特定的http方法如何阻止IIS中的特定页面URL？是否应该在 robots.txt 中禁止站点地图？和robot.txt本身？如何禁止通过安全规则更新firestore文档中的特定字段？TDD Ruby with Capybara:如何使用Capybara验证特定页面元素中的特定页面值 robots.txt的URL中的尾部斜杠如何在django中显示特定登录用户的特定页面如何在wordpress中为特定页面创建特定页脚？如何禁止特定函数的Java编译器警告如何使用宏在MS Word中禁止/关闭特定警告？Ghost -如何获取特定页面？如何在Magento中获取特定页面的CMS页面ID 如何在登录页面等特定页面中绕过ejs布局

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

robots协议

robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又稱元資料）。

01

给自己的网站加上robots.txt！(来自飞龙临天的整理投稿）

robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分，或者指定搜索引擎只收录指定的内容。

06

如何在Nuxt中配置robots.txt？

在深入研究动态Nuxt应用程序的复杂性时，从生成页面到实施站点地图和动态组件，很容易忽视robots.txt文件的关键作用。然而，为了在浏览器和Android平台上获得最佳可见性，配置这个经常被忽视的文件是至关重要的。在这篇文章中，我们将解决这一疏忽，并引导我们完成为Nuxt项目配置robots.txt的过程。让我们揭示这个文件的重要性以及它对搜索引擎排名的影响，确保我们的Nuxt应用在数字领域脱颖而出。

01

如何使用robots.txt及其详解

在国内，网站管理者似乎对robots.txt并没有引起多大重视，应一些朋友之请求，今天想通过这篇文章来简单谈一下robots.txt的写作。

01

编写爬虫竟然成了“面向监狱编程”，就是因为不懂Robots协议（爬虫协议）

编写Python爬虫很容易，不过要想安全地编写Python爬虫，就需要了解更多的至少，不光是技术上的，还有法律上的，Robots协议就是其中之一，如果不了解Robots协议，抓取了不该抓取的东西，可能会面临牢狱之灾哦！

02

怎样写Robots文件？

这些工具各有特定的应用场景，但都是用来控制网站内部结构的，容易混淆，经常需要配合使用。SEO必须准确理解这些工具的机制和原理，否则容易出错。

04

网站页面优化：ROBOTS文件和META ROBOTS

ROBOTS文件（robots.txt）位于网站根目录的文件，也称为机器人排除协议或标准，用于告知搜索引擎网站上的哪些网页要抓取，哪些页面不要抓取。META ROBOTS是一个元标签，可以单独写入到网页中，也是为搜索引擎提供指导读取网站网页的计算机程序。

05

说说Robots.txt限制收录与Google网站管理员工具

最近有朋友询问：用谷歌site你的站发现Google没收录你的tag页，我的怎么？有还大部分是？站长认为，很多新手估计都不明其中的道理，索性就写篇文章吧。

03

想把百度收录带问号的URL全部禁抓，又担心禁掉首页地址怎么办？

最近有些朋友经常问问，网站被收录了，但是首页的URL被掺杂了一些特殊的符号是怎么回事，会不会影响首页的权重，随着网络技术的不断发展，网站安全性和用户体验变得越来越重要。为了保护网站内容的安全性，许多网站默认会被掺杂特殊字符，有些人会采取禁止抓取带问号URL的措施。然而，有时候这个策略可能会对首页地址产生负面影响。

04

详解robots.txt和Robots META标签

大家好，又见面了，我是你们的朋友全栈君。对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法：一个是robots.txt,另一个是The Robots meta标签。

01

Robots协议探究：如何好好利用爬虫提高网站权重

站长们通常希望百度、Google 这样的大型搜索引擎来抓取网站内容，但又很厌恶其他来路不明的网络爬虫抓取自己的信息。

02

爬虫,robots.txt和HTML的爬虫控制标签

web爬虫是一种机器人，它会递归对站点进行遍历，然后沿着web的超链接进行数据爬取。

01

SEO优化-robots.txt解读

搜索引擎（爬虫），访问一个网站，首先要查看当前网站根目录下的robots.txt，然后依据里面的规则，进行网站页面的爬取。也就是说，robots.txt起到一个基调的作用，也可以说是爬虫爬取当前网站的一个行为准则。

01

爬虫协议 Tobots

Robots 协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。robots.txt 是搜索引擎访问网站的时候要查看的第一个文件。

02

反爬虫我从 Robots.txt 配置开始

基本上，所有公开你能访问到的网站都有 Robots.txt。可能只是你没有注意到而已，比如淘宝的：https://www.taobao.com/robots.txt、百度网盘的：https://pan.baidu.com/robots.txt。

03

Robots.txt 协议详解及使用说明

Robots协议，也称为爬虫协议、机器人协议等，其全称为“网络爬虫排除标准（Robots Exclusion Protocol）”。网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。也既是Robots的用法有两种，一种是告诉搜索引擎哪些页面你不能抓（默认其他的就可以抓）；一种是告诉搜索引擎你只能抓取哪些页面（默认其他的不可以抓）。

03

爬虫的"盗亦有道"-Robots协议

网络爬虫的君子协议执着网络爬虫的尺寸小规模，数量小，爬去速度不敏感，requests库中规模，数据规模较大，爬取速度敏感scrapy库大规模，搜索引擎,爬取速度关键定制开发爬取网页玩转网

robots.txt文件的作用

因此建立robots.txt文件是很有必要的，网站中重复的内容、页面或者404信息过多，搜索引擎蜘蛛就会认为该网站价值较低，从而降低对该网站的“印象分”，这就是我们经常听到的“降低权重”，这样网站的排名就不好了。

03

robots添加Sitemap链接位置

robots.txt声明网站中哪些目录不让搜索引擎收录，执行顺序从上到下，robots.txt写法，添加sitemap链接，什么是robots协议对seo的影响。sitemap是谷歌创造出来的，搜索引擎会优先读取sitemap.xml文件，如果没有就逐个抓取URL。

06

WordPress的Robots协议怎么写？附最新Robots.txt文件下载

最近我发现搜索引擎收录了很多“夏末浅笑博客”的重复页面，当然了这跟我前一段时间，将站点根目录下的Robots.txt文件删除掉有直接的关系，Robots.txt文件是一个用来告诉搜索引擎执行Robots协议的文件，我们将Robots协议写在Robots.txt文件里面，告诉搜索引擎我的网站哪些页面可以收录，哪些页面不可以收录。

01

如何编写和优化WordPress网站的Robots.txt

要知道WordPress robots.txt文件中的“Disallow”命令与页面头部的元描述noindex 的作用不完全相同。您的robots.txt会阻止抓取，但不一定不进行索引，网站文件（如图片和文档）除外。如果搜索引擎从其他地方链接，它们仍然可以索引您的“不允许爬取”的页面。

02

「SEO知识」如何让搜索引擎知道什么是重要的？

每一个昨天在成为昨天之前都曾有一个今天，每一个今天在成为今天之前都曾是我们的明天。今天，无论你是快乐还是痛苦、是成功还是失败、是得意还是失意，一切终将过去！因为，今天只有一天。昨天再好，已成永恒。如何让搜索引擎知道什么是重要的？时本文总计约 2200 个字左右，需要花 8 分钟以上仔细阅读。如何让搜索引擎知道什么是重要的？当一个搜索引擎程序抓取网站时，其实我们可以通过相关文件进行引导的。简单的理解搜索引擎蜘蛛会通过链接来了解您网站上的信息。但他们也在浏览网站代码和目录中的特定文件，标签和元素。接下

03

Typecho网站配置Robots规则教程

Robots协议(又称爬虫协议、机器人协议等)全称为网络爬虫排除标准（Robots Exclusion Protocol），是国际互联网界通行的道德规范，Robots是站点与spider重要的沟通渠道，网站通过robots告诉搜索引擎哪些页面可以捕获，哪些页面不能捕获。其目的是保护网站数据和敏感信息，确保用户的个人信息和隐私不受侵犯。搜索引擎需要自觉遵守，因为它不是命令。

01

什么是robots.txt文件

Robots.txt文件是网站跟爬虫间的协议，对于专业SEO并不陌生，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

01

Robots协议

Robots协议什么是robots？ Robots文件:网站和搜索引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被搜索引擎看到的隐私内容。 Robots文件告诉蜘蛛什么是可以被查看的。 Robots是蜘蛛爬行网站第一个要访问的文件。一：搜索引擎蜘蛛爬虫的原理网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其他链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。当我们不想让搜索引擎抓

07

什么是Robots协议,标准写法是什么

什么是 Robots 协议 Robots 是网站和搜引擎之间的一个协议。用来防止搜索引擎抓取那些我们不想被索引到的页面或内容。早期是为了防止搜索引擎抓取网站的一些隐私页面，不想公开展示的页面，Robots 的作用已经不在局限于网页的隐私了，如今已经是作为学习 SEO 的一个最基础的范畴，能够有效提高网站的健康度、纯净度，降低网站垃圾内容收录 User-agent：是定义搜索引擎的，指定搜索引擎的爬取程序，如果想定义所有搜索引擎请用 * ，记住他不能单独使用，他要配合前面两个语法使用（随便一个就行了） D

03

新网站如何做好SEO优化尽快被收录

对于新网站，百度等搜索引擎会有一定的扶持，所以在网站上线之前一定要做好规划，为了网站往什么领域发展、所涉猎的内容等都要提前想好。

00

Python3网络爬虫实战-23、使用U

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析，本节我们来简单了解一下它的用法。

02

robots.txt 和 WordPress 博客中如何使用

robots.txt（统一小写）是一种存放于网站根目录下的 ASCII 编码的文本文件，它通常告诉网络搜索引擎的爬虫（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎索引的，哪些是可以被索引的。

02

后端开发都应该了解的信息泄露风险

在黑客攻击中，信息收集是进行攻击的第一步，也是至关重要的一步。信息泄露发生的途径有很多，攻击者可以根据接口返回信息，分析前端代码，分析页面文件信息、甚至是开发人员或用户在第三方网站上的资料托管，都能进行有效的信息收集。作为开发人员，我们应该了解常见信息泄露风险点并谨慎规避。

03

robots.txt详解[通俗易懂]

robots.txt 文件规定了搜索引擎抓取工具可以访问网站上的哪些网址，并不禁止搜索引擎将某个网页纳入索引。如果想禁止索引（收录），可以用noindex，或者给网页设置输入密码才能访问(因为如果其他网页通过使用说明性文字指向某个网页，Google 在不访问这个网页的情况下仍能将其网址编入索引/收录这个网页)。

02

robots.txt文件详解「建议收藏」

robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法：空行、注释行（以#打头）、规则行。规则行的格式为：Field: value。常见的规则行：User-Agent、Disallow、Allow行。

02

实战|对朋友的公司官网做个友情检测

看到脚本语言是PHP的，我就习惯性的在域名后面加上robots.txt，robots.txt是什么文件呢？

01

如何对 Sveltekit 网站进行简单的 SEO 优化

最近，我花了很多时间为我的博客的SEO进行优化，但随后我意识到一个大问题，我的大部分页面甚至还没有在百度上索引。这确实是一个非常严重的问题。

00

Robots.txt – 禁止爬虫

robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法：空行、注释行（以#打头）、规则行。规则行的格式为：Field: value。常见的规则行：User-Agent、Disallow、Allow行。

03

OpenAI：ChatGPT将遵守爬虫协议，网站可拒绝白嫖

在这份说明文档中，OpenAI还提供了更简单的爬虫阻止方式，即修改robots.txt。

02

Web 系统的安全性测试之文件和目录测试

随着因特网的不断发展，人们对网络的使用越来越频繁，通过网络进行购物、支付等其他业务操作。而一个潜在的问题是网络的安全性如何保证，一些黑客利用站点安全性的漏洞来窃取用户的信息，使用户的个人信息泄漏，所以站点的安全性变得很重要。

01

实战|对朋友的公司官网做个友情检测

这次的渗透目标是我朋友的官网，做完这次渗透测试以后已经告诉我朋友了。问题有点小严重，而且他的网站是托管在建站公司。直接开始吧。

03

谷歌推网页爬虫新标准，开源robots.txt解析器

对于接触过网络爬虫的人来说 robots.txt 绝不陌生，这一存放于网站根目录下的 ASCII 码文件标明了网站中哪些内容是可以抓取的，哪些内容又是禁止抓取的。

03

Robots.txt指南

当搜索引擎访问一个网站时，它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围，即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式：Robots.txt文件的格式比较特殊，它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成：　　1) 一个User-Agent(用户代理)字符串行；　　2) 若干Disallow字符串行。　　记录格式为：<Field> ":" <value> 　　下面我们分别对这两个域做进一步说明。 User-agent(用户代理)：　　User-agent行(用户代理行) 用于指定搜索引擎robot的名字，以Google的检索程序Googlebot为例，有：User-agent: Googlebot 　　一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录，则说明有多个robot会受到RES标准的限制。当然了，如果要指定所有的robot，只需用一个通配符"*"就搞定了，即：User-agent: * Disallow(拒绝访问声明)：　　在Robots.txt文件中，每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明，禁止Spiders下载网站上的email.htm文件。而"Disallow: /cgi-bin/"则对cgi-bin目录的访问进行了声明，拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中"Disallow: /cgi-bin/"声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问，而"Disallow:/bob"则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空，则说明该网站的所有部分都向搜索引擎开放。空格 & 注释　　在robots.txt文件中，凡以"#"开头的行，均被视为注解内容，这和UNIX中的惯例是一样的。但大家需要注意两个问题：　　1) RES标准允许将注解内容放在指示行的末尾，但这种格式并不是所有的Spiders都能够支持。譬如，并不是所有的Spiders都能够正确理解"Disallow: bob #comment"这样一条指令。有的Spiders就会误解为Disallow的是"bob#comment"。最好的办法是使注解自成一行。　　2) RES标准允许在一个指令行的开头存在空格，象"Disallow: bob #comment"，但我们也并不建议大家这么做。 Robots.txt文件的创建：　　需要注意的是，应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能，或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件，那你可就是瞎子打蚊子——白费力气了。对RES标准的扩展：　　尽管已经提出了一些扩展标准，如Allow行或Robot版本控制(例如应该忽略大小写和版本号)，但尚未得到RES工作组的正式批准认可。附录I. Robots.txt用法举例：　　使用通配符"*"，可设置对所有robot的访问权限。　　User-agent: * 　　Disallow: 　　表明：允许所有搜索引擎访问网站下的所有内容。　　User-agent: * 　　Disallow: / 　　表明：禁止所有搜索引擎对网站下所有网页的访问。　　User-agent: * 　　Disallow: /cgi-bin/Disallow: /images/ 　　表明：禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。　　User-agent: Roverdog 　　Disallow: / 　　表明：禁止Roverdog访问网站上的任何文件。　　User-agent: Googlebot Disallow: cheese.htm 　　表明：禁止Google的Googlebot访问其网站下的cheese.htm文件。　　上面介绍了一些简单的设置，对于比较复杂的设置，可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.c

02

zblog系统博客的robots.txt文件的写法教程

robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。这篇文章就讲解一下，zblog博客程序中如何设置robots.txt文件

02

创建一个分布式网络爬虫的故事

编者按：作者通过创建和扩展自己的分布式爬虫，介绍了一系列工具和架构, 包括分布式体系结构、扩展、爬虫礼仪、安全、调试工具、Python 中的多任务处理等。以下为译文：大概600万条记录，每个记录有15个左右的字段。这是我的数据分析项目要处理的数据集，但它的记录有一个很大的问题：许多字段缺失，很多字段要么格式不一致或者过时了。换句话说，我的数据集非常脏。但对于我这个业余数据科学家来说还是有点希望的-至少对于缺失和过时的字段来说。大多数记录包含至少一个到外部网站的超链接，在那里我可能找到我需要的信息。因此

08

typecho 的 robots.txt 与 sitemap 插件

这篇文章最后修改于 2022-06-23 日，距今已有 153 天，请注意甄别内容是否已经过时！

03

Robots.txt和Robots META

robots.txt是一套指示搜索引擎（蜘蛛）如何抓取你的网页内容的一张地图，他告诉蜘蛛哪些需要抓取，哪些不要抓取（当然，这只是针对那些遵守这个协定的搜索引擎）。robots.txt文件必须存放在网站的根目录下。

02

SEO分享：彻底禁止搜索引擎收录非首选域名的方法

众所周知，绝大多数网站都会有一个首选域名，从用户体验考虑，通常站长们还会另外解析一个域名，并设置 301 重定向。例如，用户未输入 www 的时候，仍然可以访问到我们的网站，就像访问 http://b

07

利用nginx来屏蔽指定的user_agent的访问以及根据user_agent做跳转

对于做国内站的我来说，我不希望国外蜘蛛来访问我的网站，特别是个别垃圾蜘蛛，它们访问特别频繁。这些垃圾流量多了之后，严重浪费服务器的带宽和资源。通过判断user agent，在nginx中禁用这些蜘蛛可以节省一些流量，也可以防止一些恶意的访问。

05

Python入门网络爬虫之精华版

首先列举一下本人总结的相关文章，这些覆盖了入门网络爬虫需要的基本概念和技巧：宁哥的小站-网络爬虫

02

域名备案&robots协议

建设一个网站一定会需要域名，而域名又一定需要备案。备案分为两类，公司备案和个人备案：

02

Python爬虫之robots协议案例

网络爬虫有时候也会引发很多的问题由于编写的爬虫的性能和其他原因，可能会对Web服务器带来巨大的资源开销服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私所以，一般部分网站会给出限制网路爬虫的协议，这就是robots协议。来源审查：判断User‐Agent进行限制检查来访HTTP协议头的User‐Agent域，只响应浏览器或友好爬虫的访问发布公告：Robots协议告知所有爬虫网站的爬取策略，要求爬虫遵守 ro

02

robots协议标准

前两天刚知道用爬虫抓取page有个协议的问题，尤其是对于open source的爬虫，刚看到一篇blog，写的就是如此，难怪之前看google的robots也和另外一个U.S.的网站相同，感情是大家都商量好了，可能这方面中国的一些站点这种意识要稍微淡一点。。。同时这也害得毕设还得另谋思路。。。搜索引擎三巨头打的不亦乐乎，但偶尔也合作一下。去年Google，雅虎，微软就合作，共同遵守统一的Sitemaps标准。前两天三巨头又同时宣布，共同遵守的 robots.txt文件标准。Google，雅虎，微软各自在自己的官方博客上发了一篇帖子，公布三家都支持的robots.txt文件及Meta标签的标准，以及一些各自特有的标准。下面做一个总结。三家都支持的robots文件记录包括： Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件： User-agent: * Disallow: / Allow - 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用，可以告诉蜘蛛某个目录下，大部分都不抓取，只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件，而只抓取其中cd下的文件： User-agent: * Disallow: /ab/ Allow: /ab $通配符 - 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL： User-agent: * Allow: .htm$ *通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件： User-agent: * Disallow: /*.htm Sitemaps位置 - 告诉蜘蛛你的网站地图在哪里，格式为：Sitemap: <sitemap_XXXXXX> 三家都支持的Meta标签包括： NOINDEX - 告诉蜘蛛不要索引某个网页。 NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。 NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。 NOARCHIVE - 告诉蜘蛛不要显示快照。 NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。上面这些记录或标签，现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持Disallow，Allow及两种通配符。Meta标签我没有找到百度是否支持的官方说明。只有Google支持的Meta标签有： UNAVAILABLE_AFTER - 告诉蜘蛛网页什么时候过期。在这个日期之后，不应该再出现在搜索结果中。 NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。 NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。雅虎还支持Meta标签： Crawl-Delay - 允许蜘蛛延时抓取的频率。 NOYDIR - 和NOODP标签相似，但是指雅虎目录，而不是开放目录。 Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分，或者换个角度，告诉蜘蛛哪些部分是页面的主要内容（想被检索的内容）。 MSN还支持Meta标签：Crawl-Delay 另外提醒大家注意的是，robots.txt文件可以不存在，返回404错误，意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误，可能导致搜索引擎不收录网站，因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容，这与确认文件不存在是不一样的。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭