前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Typecho网站配置Robots规则教程

Typecho网站配置Robots规则教程

作者头像
Hello-1
发布2022-08-30 16:16:59
9290
发布2022-08-30 16:16:59
举报
文章被收录于专栏:爱分享

什么是Robots协议(Robots.txt)?

Robots协议(又称爬虫协议、机器人协议等)全称为网络爬虫排除标准(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider重要的沟通渠道,网站通过robots告诉搜索引擎哪些页面可以捕获,哪些页面不能捕获。其目的是保护网站数据和敏感信息,确保用户的个人信息和隐私不受侵犯。搜索引擎需要自觉遵守,因为它不是命令。

为什么需要?robots.txt?

优化搜索引擎SEO从角度看,robots.txt文件起着至关重要的作用。它告诉搜索引擎如何最好地抓取你的网站。robots.txt文件可以防止搜索引擎访问网站的某些部分,防止重复内容,并为搜索引擎提供有用的提示,如何更有效地捕捉您的网站。robots.txt更改时要小心:因为设置错误可能会使搜索引擎无法访问网站的大部分内容。

robots.txt如何工作?

搜索引擎机器人访问网站时,首先会找到网站根目录是否 robots.txt如果有文件,则根据文件的内容确定包含范围。如果没有,则默认访问并包含所有页面。此外,当搜索蜘蛛发现它不存在时robots.txt在文件中,服务器上会产生一个404错误的日志,从而增加服务器的负担,所以在网站上添加一个robots.txt文件仍然很重要。百度也将严格遵守robots对于相关协议,要注意区分你不想被抓或收录的目录的大小写。robots文件准确匹配你不想被抓和收录的目录,否则robots协议无效。robots.txt基本语法User-agent:描述搜索引擎robot : 你可以指定这个规则只对baidu 或者google 或其他指定搜索引擎有效 可使用通配符Disallow: 描述一组不想被访问的人URL也就是说,可以使用设置禁止访问的部分url,也可以使用相对路径,可以是单目文件,也可以是整个文件夹,定类型。Allow: 描述一组希望被访问的人URL也就是说,设置允许访问的部分,但由于默认允许,这种语法通常是合作的disallow用它来完成 如除了xxx.html所有这些设置都不能在目录下访问。需要注意的是,allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。

Sitemap:指示蜘蛛去爬取网站的sitemap文件。通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符。如何区分你的网站是否配置了?robots.txt第一种方法:访问网站 http(s):你的域名/robots.txt第二种方法:通过 [百度站长工具] 检测如何正确编写保护网站隐私的方法robots.txt我们想要的效果是:所有搜索引擎都必须遵循我的协议,禁止蜘蛛抓取我的背景地址和Typecho安装路径引导蜘蛛抓住我Sitemap

然后我们可以这样写,在网站根目录下新建一个robots.txt文件,内容如下*User-agent:

Allow: /*.html$

Allow: /usr

Disallow: /admin/

Disallow: /install/

Disallow: /var/

Disallow: /config.inc.php

Disallow: /install.php

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是Robots协议(Robots.txt)?
  • 为什么需要?robots.txt?
  • robots.txt如何工作?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档