前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >robots.txt书写错误导致的严重后果

robots.txt书写错误导致的严重后果

作者头像
泽泽社长
发布2023-04-17 17:14:45
3240
发布2023-04-17 17:14:45
举报
文章被收录于专栏:泽泽社

robots介绍

就是一个网站根目录的txt文本,需要自己建立的,目的就是告诉搜索引擎哪些页面可以抓取,哪些页面不准抓取。

事情的起因就是我建立了这个东西,下面就是我写的东西。

代码语言:javascript
复制
User-agent: *
Disallow: /a*/这个是不准抓的链接
Disallow:/install/这个是不准抓的链接
sitemap:https://zezeshe.com/sitemap.xml

错就错在这个声明上了Disallow: /a*/,这个就是禁止http://zezeshe.com/a带有这样格式的链接,而我的文章格式是https://blog.zezeshe.com/archives/demo.html这样的,因为每篇文章链接都含有http://zezeshe.com/a,所以搜索引擎完全没有抓取我的文章。(容我哭一下)

创建robots.txt本身是优化收录的,结果我这么一写反而起了超级大的反效果,哭。

之前怀疑过https导致收录过慢,也怀疑过我自己修改文章链接格式导致的原因,现在我发现我错了,最大的原因居然是这个不起眼的txt文件。

robots文件写法

代码语言:javascript
复制
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • robots介绍
  • robots文件写法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档