开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Googlebot不尊重Robots.txt

Googlebot是谷歌搜索引擎的爬虫，它会遵循网站的robots.txt文件来确定哪些页面可以被抓取。robots.txt文件是一个简单的文本文件，它告诉搜索引擎哪些页面可以被抓取，哪些不可以。然而，有时候Googlebot可能会忽略robots.txt文件中的规则，这可能是因为网站的robots.txt文件存在错误或者Googlebot的爬虫策略有所调整。

如果您的网站发现被Googlebot抓取了不应该被抓取的页面，您可以采取以下措施：

检查您的robots.txt文件是否正确配置。确保您的文件格式正确，并且您的规则语法正确无误。
如果您发现Googlebot忽略了您的robots.txt文件，您可以使用Google Search Console来排除被抓取的页面。您可以在Google Search Console中使用“URL预览”功能来检查您的页面是否被正确抓取，并且可以使用“抓取错误”功能来查看Googlebot抓取页面时遇到的错误。
如果您发现Googlebot抓取了不应该被抓取的页面，您可以使用“禁止抓取”标记来告诉Googlebot不要抓取这些页面。您可以在<head>标签中添加<meta name="robots" content="noindex">标记来禁止Googlebot抓取该页面。

总之，Googlebot会尊重robots.txt文件中的规则，但是有时候可能会出现异常情况。如果您的网站发现被Googlebot抓取了不应该被抓取的页面，您可以采取上述措施来解决问题。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

UserAgent中的AhrefsBot解释

根据最近一项关于“好机器人”的第三方研究，AhrefsBot 是仅次于 Googlebot 的第二大活跃爬虫。 AhrefsBot 在您的网站上做什么？...它是否尊重 robots.txt 文件？是的。绝对地。我们严格尊重 robots.txt，禁止和允许规则。如何控制您网站上的 AhrefsBot？...如上所述，AhrefsBot 严格遵循您网站上的 robots.txt 文件。因此，您可以根据需要在您的网站上完全控制它。...要更改 AhrefsBot 访问您网站的频率，您可以在您的 robots.txt 文件中指定来自我们的机器人的两个连续请求之间的最小可接受延迟： User-agent: AhrefsBot Crawl-Delay...可能需要一些时间来选择您的 robots.txt 文件中的更改。

1.5K3 0

爬虫的盗亦有道-Robots协议

User-agent: Googlebot Disallow: /baidu Disallow: /s?...robots.txt利用User-agent来区分各个引擎的爬虫，比如说google网页搜索爬虫的User-agent为Googlebot。...防君子不防小人（君子协议） Robots协议不是什么技术壁垒，而只是一种互相尊重的协议，好比私家花园的门口挂着“闲人免进”，尊重者绕道而行，不尊重者依然可以推门而入。...缓存 robots.txt本身也是需要抓取的，出于效率考虑，一般爬虫不会每次抓取网站网页前都抓一下robots.txt，加上robots.txt更新不频繁，内容需要解析。...ignore 不知是无意还是有意，反正有些爬虫不太遵守或者完全忽略robots.txt，不排除开发人员能力的问题，比如说根本不知道robots.txt。

1.9K13 0

robots.txt详解

如果想禁止索引（收录），可以用noindex，或者给网页设置输入密码才能访问(因为如果其他网页通过使用说明性文字指向某个网页，Google 在不访问这个网页的情况下仍能将其网址编入索引/收录这个网页)。...Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令，但其他抓取工具未必如此。不同的抓取工具会以不同的方式解析语法。...对着着示例说明： # Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot...User-agent: Googlebot-Image Disallow: / # 禁止谷歌抓取所有 .gif 文件。...User-agent: Googlebot Disallow: /*.xls$ 如何更新robots文件？

2.1K2 0

如何使用robots.txt及其详解

要只从 Google 中删除您的网站，并只是防止 Googlebot 将来抓取您的网站，请将以下 robots.txt 文件放入您服务器的根目录： User-agent: Googlebot Disallow...使用 robots.txt 文件拦截或删除网页您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。...Googlebot Disallow: /private 要阻止 Googlebot 抓取特定文件类型（例如，.gif）的所有文件，可使用以下 robots.txt 条目： User-agent:...尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引，但如果我们在网络上的其他网页中发现这些内容，我们仍然会抓取其网址并编制索引。...它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件，并且可为 Google user-agents（如 Googlebot）提供结果。我们强烈建议您使用它。

9801 0

谷歌推网页爬虫新标准，开源robots.txt解析器

今年，robots.txt 就满 25 周岁了，为了给这位互联网MVP庆祝生日，谷歌再度出手，开源 robots.txt 解析器，试图推助机器人排除协议（REP）正式成为互联网行业标准。 ?...REP 以其简单高效征服了互联网行业，有超过 5 亿个网站都在使用 robots.txt，可以说它已经成为了限制爬虫的事实标准，像 Googlebot 在抓取网页时就会浏览 robots.txt 来确保其不冒犯网站的特别声明...这就够让人头疼的了，更别提并非所有的爬虫都尊重 robots.txt 这件事了。来自谷歌的生日礼 REP 的尴尬，以搜索起家的谷歌看在眼里。...草案内容目前尚未全面公布，但大致会聚焦于以下几个方向：任何基于 URI 的传输协议都可以使用 robots.txt。不局限于 HTTP，还包括 FTP 和 CoAP。...新的最大缓存时间或缓存指令值为24小时，使网站所有者可以随时灵活地更新 robots.txt，并且爬虫不会使用 robots.txt 请求超载网站。

5133 0

Dora的Google SEO教程（1）SEO新手指南：初步优化思维的建立

Googlebot：Google抓取工具的通用名称，会不断的抓取网页，也就是我们说的蜘蛛。 SEO：即搜索引擎优化，旨在通过符合搜索引擎规则的方式和方法来提升目标网站在搜索引擎中的搜索排名。...robots.txt：主动告诉搜索引擎哪些希望或不希望被收录 robots.txt可以理解为搜索引擎的一种通行规则，通过robots.txt可以明确的告诉搜索引擎哪些页面希望或者不希望被索引。...User-agent: googlebot Disallow: /checkout/ Disallow: /icons/ 比如上面就是一个robots.txt文件，其中Disallow:后面就是你不希望被索引的页面路径...用心是对用户的尊重，也会获得搜索引擎的尊重尤其是对Google这样的搜索引擎，内容用心与否直接影响了排名。所以一定要避免内容出现低级的单词错误，或者是大量的复制粘贴文本。...很多人为了SEO会刻意的选择一些自己的目标关键词去做全站的内部锚文本链接，这是不可取的，做内部链接首先要尊重易用性原则。

4461 0

Robots.txt指南

Robots.txt文件的格式：Robots.txt文件的格式比较特殊，它由记录组成。这些记录通过空行分开。...User-agent(用户代理)：　　User-agent行(用户代理行) 用于指定搜索引擎robot的名字，以Google的检索程序Googlebot为例，有：User-agent: Googlebot...这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如"Disallow: email.htm"对文件的访问进行了声明，禁止Spiders下载网站上的email.htm文件。...User-agent: Googlebot Disallow: cheese.htm 　　表明：禁止Google的Googlebot访问其网站下的cheese.htm文件。　　...相关robots.txt文章参考：　　1. Robots.txt常见问题解析　　2. Robots Meta Tag的使用　　3. Robots.txt检测程序

1.4K2 0

网站页面优化：ROBOTS文件和META ROBOTS

不需要任何技术和经验即可充分利用robots.txt强大功能，你可以通过查看网站源码找到robots.txt。首先让我们看看robots.txt文件是什么为何如此重要。...需要强调的是，一些网站可能觉得不需要robots.txt，因为他们不需要在公共视野中隐藏网站的敏感数据，允许GOOGLEBOT从内到外全面抓取整个网站，如果网站没有robots.txt，则默认搜索引擎可以访问全网站...最常用的robots.txt优化方法 robots.txt最常见的使用方法是屏蔽搜索引擎，不要抓取不希望索引的网站区域，提供xml站点地图访问路径，robots.txt放在网站根目录，以下为例。...第二种：指定GOOGLEBOT搜索引擎不能够访问和收录/private文件夹 User-agent: Googlebot Disallow: /private 代码解释：第一行、用户代理，意思是指定Googlebot...搜索引擎；第二行、告诉Googlebot搜索引擎不要抓取和收录/private文件夹。

1.9K5 0

Robots协议探究：如何好好利用爬虫提高网站权重

网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供应，robots协议就此诞生。...robots.txt 利用 User-agent 来区分各个引擎的爬虫，比如说 google 网页搜索爬虫的 User-agent 为 Googlebot 。...防君子不防小人 Robots协议不是什么技术壁垒，而只是一种互相尊重的协议，好比私家花园的门口挂着“闲人免进”，尊重者绕道而行，不尊重者依然可以推门而入。...缓存 robots.txt本身也是需要抓取的，出于效率考虑，一般爬虫不会每次抓取网站网页前都抓一下robots.txt，加上robots.txt更新不频繁，内容需要解析。...ignore 不知是无意还是有意，反正有些爬虫不太遵守或者完全忽略robots.txt，不排除开发人员能力的问题，比如说根本不知道robots.txt。

1.5K2 0

详解robots.txt和Robots META标签

对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。...Disallow : 该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。...: GoogleBot 正确的应该是： User-agent: GoogleBot Disallow: * l 把多个禁止命令放在一行中：例如,错误地写成 Disallow: /css...例如 USER-AGENT: EXCITE DISALLOW: 虽然标准是没有大小写的,但是目录和文件名应该小写： user-agent: GoogleBot disallow: l 语法中只有...例如：＜ meta NAME=”googlebot” Con_TENT=”index,follow,noarchive”＞表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照

9411 0

浅谈Google蜘蛛抓取的工作原理(待更新)

Robots.txt 是一个根目录文件，限制一些页面或内容元素从谷歌。一旦Googlebot发现你的页面，它就会查看Robots.txt文件。...如果发现页面被Robots.txt限制爬行，Googlebot 将停止从该页面中爬行和加载任何内容和脚本。此页面不会显示在搜索中。...注意：Robots.txt文件并不能保证页面被排除在索引之外。Googlebot将此文档视为建议而不是订单。这意味着谷歌可以忽略Robots.txt并索引一个页面进行搜索。...不。某些页面可能无法用于爬行和索引。让我们仔细看看这些类型的页面：受密码保护的页面。Googlebot 模拟了匿名用户的行为，该用户没有任何凭据访问受保护的页面。...Googlebot也不例外。Googlebot可能会感到困惑，当试图了解长和参数丰富的网址。因此，更多的爬行资源被花费。为了防止这种情况，使您的网址用户友好。

3.2K1 0

robots.txt文件详解「建议收藏」

Robots.txt – 禁止爬虫 robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法：空行、注释行（以#打头）、规则行。.../2.1; +http://www.google.com/bot.html) User-Agent: Googlebot-Image/1.0 User-Agent: Feedfetcher-Google...robots.txt的补充如果你没有对网站根目录的写入权限（无法建立robots.txt文件），或你想要某个指定的网页不被搜索引擎收录，可以使用元标签阻止爬虫访问： <meta name="robots...nofollow 防止<em>googlebot</em>从此页面中跟踪链接。 noarchive 防止Google显示网页的快照链接。...现实中的<em>robots.txt</em> 淘宝屏蔽百度淘宝屏蔽了百度抓取（2008年9月），http://www.taobao.com/<em>robots.txt</em>的内容： User-agent: Baiduspider

1.2K1 0

SEO优化-robots.txt解读

一、什么是robots.txt robots.txt 文件由一条或多条规则组成。每条规则可禁止（或允许）特定抓取工具抓取相应网站中的指定文件路径。...也就是说，robots.txt起到一个基调的作用，也可以说是爬虫爬取当前网站的一个行为准则。那使用robots.txt的目的，就很明确了。...更好地做定向SEO优化，重点曝光有价值的链接给爬虫将敏感文件保护起来，避免爬虫爬取收录三、robots.txt的示例栗子如下： User-agent: Googlebot Disallow: /nogooglebot.../ User-agent: * Allow: / Sitemap: http://www.wangxiaokai.vip/sitemap.xml 解析：名为“Googlebot”抓取工具的用户代理不应抓取...（不指定这条规则也无妨，结果是一样的，因为完全访问权限是系统默认的前提。）

6001 0

Robots.txt – 禁止爬虫

robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法：空行、注释行（以#打头）、规则行。规则行的格式为：Field: value。.../2.1; +http://www.google.com/bot.html) User-Agent: Googlebot-Image/1.0 User-Agent: Feedfetcher-Google...robots.txt的补充如果你没有对网站根目录的写入权限（无法建立robots.txt文件），或你想要某个指定的网页不被搜索引擎收录，可以使用元标签阻止爬虫访问： name="robots" content...nofollow 防止googlebot从此页面中跟踪链接。 noarchive 防止Google显示网页的快照链接。...现实中的robots.txt 淘宝屏蔽百度淘宝屏蔽了百度抓取（2008年9月），http://www.taobao.com/robots.txt的内容： User-agent: Baiduspider

1.7K3 0

简单的robots协议

robots.txt存在与网站的根目录，如果网站名叫做http://www.test.com/，robots文件存在于根目录的话，可以通过http://www.test.com/robots.txt访问...如图所示看到了不，我刚刚说不允许别人去访问passwd这个文件，就用Disallow去告诉搜索引擎不可以访问的文件或页面如果仅仅只能访问download的话，使用Allow去指定可以访问的文件或页面...简单来说，就是指定某个或者所有搜索引擎都按照我的robots.txt内规定的来爬取，目前，市面上有很多种搜索引擎，比如百度Baiduspider，或者是谷歌Googlebot等等，如果你想针对谷歌搜索引擎爬虫遵循你的...robots文件规定的话，你可以定义成:User-agent: Googlebot,如果是针对全部的搜索引擎爬虫那就是User-agent: * robots协议的作用可大可小，如果你的网站完完全全是针对公众的...type=web&number=3&grade=0&id=5063&page=1 writeup在后面，不建议直接看wp，先自己试一下能不能做出来，实在没思路，可以看提示，再看wp 解题思路wp 打开环境

9181 0

robots.txt

1、通过 robots.txt 文件屏蔽可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议： User-agent: Baiduspider Disallow...: / User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile Disallow: / User-agent: Googlebot-Image...小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，

1.6K3 0

robots txt防爬虫

robots.txt中的参数含义： User-agent：描述搜索引擎spider的名字。...在“robots.txt“文件中，如果有多条 User-agent记录，说明有多个robot会受到该协议的约束。所以，“robots.txt”文件中至少要有一条User- agent记录。...在“robots.txt”文件中，“User-agent：*”这样的记录只能有一条。...robots.txt： User-agent: Baiduspider Disallow: / User-agent: Googlebot Disallow: / User-agent: Googlebot-Mobile...Disallow: / User-agent: Googlebot-Image Disallow:/ User-agent: Mediapartners-Google Disallow: / User-agent

8941 0

http协议的各类状态码

如果是对您的 robots.txt 文件显示此状态码，则表示 Googlebot 已成功检索到该文件。 201（已创建）请求成功并且服务器创建了新的资源。...您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...如果您的网站上没有 robots.txt 文件，而您在 Google 网站管理员工具“诊断”标签的 robots.txt 页上看到此状态码，则这是正确的状态码。...但是，如果您有 robots.txt 文件而又看到此状态码，则说明您的 robots.txt 文件可能命名错误或位于错误的位置（该文件应当位于顶级域，名为 robots.txt）。...如果对于 Googlebot 抓取的网址看到此状态码（在”诊断”标签的 HTTP 错误页面上），则表示 Googlebot 跟随的可能是另一个页面的无效链接（是旧链接或输入有误的链接）。

1.2K8 0

错误代码大全【100(临时响应)】【200(成功)】【300(已重定向)】【400(请求错误)】【500(服务器错误)】(HTTP协议版本)

如果您的 robots.txt文件显示为此状态，那么，这表示 Googlebot 已成功检索到该文件。 201(已创建) 请求成功且服务器已创建了新的资源。...但由于 Googlebot 会继续抓取原有位置并将其编入索引，因此您不应使用此代码来通知 Googlebot 某个页面或网站已被移动。...如果您的网站上没有 robots.txt 文件，而您在 Google 网站管理员工具”诊断”标签的 robots.txt 页上发现此状态，那么，这是正确的状态。...然而，如果您有 robots.txt 文件而又发现了此状态，那么，这说明您的 robots.txt 文件可能是命名错误或位于错误的位置。...(该文件应当位于顶级域名上，且应当名为 robots.txt)。

4K1 0

teg http 返回码含义

如果是对您的 robots.txt 文件显示此状态码，则表示 Googlebot 已成功检索到该文件。 201（已创建）请求成功并且服务器创建了新的资源。...您可以使用网站管理员工具查看一下 Googlebot 在抓取重定向网页时是否遇到问题。诊断下的网络抓取页列出了由于重定向错误导致 Googlebot 无法抓取的网址。...如果您的网站上没有 robots.txt 文件，而您在 Google 网站管理员工具“诊断”标签的 robots.txt 页上看到此状态码，则这是正确的状态码。...但是，如果您有 robots.txt 文件而又看到此状态码，则说明您的 robots.txt 文件可能命名错误或位于错误的位置（该文件应当位于顶级域，名为 robots.txt）。...如果对于 Googlebot 抓取的网址看到此状态码（在”诊断”标签的 HTTP 错误页面上），则表示 Googlebot 跟随的可能是另一个页面的无效链接（是旧链接或输入有误的链接）。

1.1K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭