学习
实践
活动
专区
工具
TVP
写文章
专栏首页西城知道WordPress的Robots协议怎么写?附最新Robots.txt文件下载
原创

WordPress的Robots协议怎么写?附最新Robots.txt文件下载

很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识。

最近我发现搜索引擎收录了很多“夏末浅笑博客”的重复页面,当然了这跟我前一段时间,将站点根目录下的Robots.txt文件删除掉有直接的关系,Robots.txt文件是一个用来告诉搜索引擎执行Robots协议的文件,我们将Robots协议写在Robots.txt文件里面,告诉搜索引擎我的网站哪些页面可以收录,哪些页面不可以收录。

搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。

那我为什么要删除掉我们网站下面的Robots.txt文件呢?这跟前一段时间搜索引擎抓取不到服务器吧文章图片有关系,为了能让搜索引擎更好的抓取网站内容,我最终才决定删除掉了Robots.txt文件,放任搜索引擎蜘蛛任意抓取我们网站的所有内容。

当然了效果是有的,目前网站在搜索引擎的索引页面出图率已经正常了,可是伴随着出图率的恢复,文章重复页面的收录问题也显现了,大家都知道WordPress是一个动态建站程序,他并不像织梦CMS跟帝国CMS那种静态网站,因此我们使用WordPress搭建好网站以后,一般都要对其先进行伪静态设置,这也是让搜索引擎更好的抓取网站内容的一种必要的设置。

什么是Robots?

Robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说Robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在Robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

什么是动态地址?什么是静态地址?

但是我们设置了伪静态,搜索引擎还是会抓取动态地址,大家这里可能有点不能理解,我来跟大家解释一下吧,例如我们使用WordPress发布了一篇文章,而这篇文章在我们没有设置伪静态的时候,他的文章链接是默认的动态地址,例如:你的网址/?p=123,而在我们设置了伪静态规则后他的地址就会变成“你的网址/123.html”这样的静态化链接地址,而搜索引擎蜘蛛在抓取内容的时候,他却看到了两个标题一样但是地址不一样的网址链接,因此他觉得是两篇文章,所以他将两个指向同一篇文章的链接抓取了回去,这就导致我们在搜索引擎索引页面会出现重复收录的问题。

举例:

静态:https://blog.ccswust.org/14842.html 动态;https://blog.ccswust.org/?p=14842

一个是动态页面地址,一个是静态页面地址,这就是我们上面所说的文章重复收录问题,这个问题严重的情况下会造成网站降权,甚至被K,而且就其本身来说,也会导致相关页面的权重分散,那我们的WordPress有没有一种方法来避免这种情况呢?答案是肯定,那就是我们本文要讲的通过设置Robots协议,来告诉搜索引擎我们WordPress网站的哪些页面可以收录,哪些页面不可以收录。

WordPress的Robots协议怎么写?

关于WordPress的Robots协议怎么写?知道君在网上查阅了很多大神的相关教程,而因为每一个大神想给搜索引擎看到的网站内容都不同,因此他们的Robots协议设置也都各有不同,不过大致上都会通过这两行代码“

Disallow: /wp-admin/ Disallow: /wp-includes/

”来禁止搜索引擎蜘蛛抓取相关WordPress网站根目录,这里的“Disallow: ”就是禁止抓取的意思,下面我们下来了解一下Robots协议怎么写吧。

Robots协议命令

User-agent: User-agent:是用来指定搜索引擎的,这里我们网站一般是允许搜索引擎访问的,因此书写为“User-agent: * ”,这里的“ * ”是通用命令符。 Disallow: 在上面我们已经说了“Disallow: ”就是禁止抓取的意思,使用“Disallow: ”我们告诉搜索引擎那些网站内容不允许收录和抓取。 Allow: “Allow:”是允许的意思,也就是我使用“Allow:”可以告诉搜索引擎那些网站内容可以被收录抓取。 Sitemap:

“Sitemap:”用来告诉搜索引擎抓取我们网站的网站地图Sitemap.xml文件的位置。

我根据网上大神们分享的Robots协议重写的WordPress Robots协议

User-agent: * Allow: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /wp- Disallow: /wp-* Disallow: /wp-*.php Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /*?connect=* Disallow: /page/ Disallow: /page/* Disallow: /*/*/page/ Disallow: /page/1$ Disallow: /date/ Disallow: /xmlrpc.php Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /trackback/ Disallow: /*/trackback Disallow: */trackback Disallow: /*/*/trackback Disallow: /feed Disallow: /feed/ Disallow: /*/feed Disallow: */feed Disallow: */feed*/feed Disallow: /*/*/feed Disallow: /comments/ Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=*\ Disallow: /*/?s=* Disallow: /?p=* Disallow: /?p=*&preview=true Disallow: /?page_id=*&preview=true Disallow: /attachment/ Disallow: /wp-login.php Allow: /wp-content/uploads/ Sitemap: https://你的网站地址/sitemap.xml

上面是我重新整理编写的一些大神们的WordPress Robots协议,这里我在“User-agent: *”所有搜索引擎可以抓取网站的下方添加了一条“Allow: *”命令,然后才是我们要禁止收录的一些网站内容,因为我们的我们先应该告诉搜索引擎我们网站可以收录抓取,然后才是要他遵守一些我设置的规则,哪些可以收录,哪些不可以收录。

1:User-agent: *? ?开始配置:所有搜索引擎 2:Allow: *? ?允许所有搜索引擎访问*目录(包括子目录) 3:Disallow: /wp-admin/? ?禁止所有搜索引擎访问/wp-admin目录 4:Disallow: /wp-content/? ?禁止所有搜索引擎访问/wp-content目录 5:Disallow: /wp-includes/? ?禁止所有搜索引擎访问/wp-includes目录 6:Disallow: /wp-? ?禁止所有搜索引擎访问/wp-目录(包括子目录) 7:Disallow: /wp-*? ?禁止所有搜索引擎访问/wp-*目录(包括子目录) 8:Disallow: /wp-*.php ?禁止所有搜索引擎访问根目录下的wp-*.php文件 9:Disallow: /wp-content/plugins ?禁止所有搜索引擎访问/wp-content/plugins目录(包括子目录) 10:Disallow: /wp-content/themes ?禁止所有搜索引擎访问/wp-content/themes目录(包括子目录) 11:Disallow: /*?connect=*? ?禁止所有搜索引擎访问/*,参数为connect=*的页面 12:Disallow: /page/? ?禁止所有搜索引擎访问/page目录 13:Disallow: /page/*? ?禁止所有搜索引擎访问/page/*目录(包括子目录) 14:Disallow: /*/*/page/? ?禁止所有搜索引擎访问/*/*/page目录 15:Disallow: /page/1欲将沉醉换悲凉,清歌莫断肠。这混乱的尘世,究竟充斥了多少绝望和悲伤。你想去做一个勇敢的男子,为爱,为信仰,轰轰烈烈的奋斗一场。nbsp; ?禁止所有搜索引擎访问所有以/page结尾的文件 16:Disallow: /date/? ?禁止所有搜索引擎访问/date目录 17:Disallow: /xmlrpc.php ?禁止所有搜索引擎访问根目录下的xmlrpc.php文件 18:Disallow: /*/comment-page-*? ?禁止所有搜索引擎访问/*/comment-page-*目录(包括子目录) 19:Disallow: /*?replytocom=*? ?禁止所有搜索引擎访问/*,参数为replytocom=*的页面 20:Disallow: /category/*/page/? ?禁止所有搜索引擎访问/category/*/page目录 21:Disallow: /tag/*/page/? ?禁止所有搜索引擎访问/tag/*/page目录 22:Disallow: /trackback/? ?禁止所有搜索引擎访问/trackback目录 23:Disallow: /*/trackback ?禁止所有搜索引擎访问/*/trackback目录(包括子目录) 24:Disallow: */trackback ?禁止所有搜索引擎访问*/trackback目录(包括子目录) 25:Disallow: /*/*/trackback ?禁止所有搜索引擎访问/*/*/trackback目录(包括子目录) 26:Disallow: /feed ?禁止所有搜索引擎访问/feed目录(包括子目录) 27:Disallow: /feed/? ?禁止所有搜索引擎访问/feed目录 28:Disallow: /*/feed ?禁止所有搜索引擎访问/*/feed目录(包括子目录) 29:Disallow: */feed ?禁止所有搜索引擎访问*/feed目录(包括子目录) 30:Disallow: */feed*/feed ?禁止所有搜索引擎访问*/feed*/feed目录(包括子目录) 31:Disallow: /*/*/feed ?禁止所有搜索引擎访问/*/*/feed目录(包括子目录) 32:Disallow: /comments/? ?禁止所有搜索引擎访问/comments目录 33:Disallow: /comments/feed ?禁止所有搜索引擎访问/comments/feed目录(包括子目录) 34:Disallow: /?s=*? ?禁止所有搜索引擎访问任何带参数的页面 35:Disallow: /*/?s=*\? ?禁止所有搜索引擎访问/*/?s=*目录下任何带参数的页面 36:Disallow: /*/?s=*? ?禁止所有搜索引擎访问/*目录下任何带参数的页面 37:Disallow: /?p=*? ?禁止所有搜索引擎访问任何带参数的页面 38:Disallow: /?p=*&preview=true ?禁止所有搜索引擎访问任何带参数的页面 39:Disallow: /?page_id=*&preview=true ?禁止所有搜索引擎访问任何带参数的页面 40:Disallow: /attachment/? ?禁止所有搜索引擎访问/attachment目录 41:Disallow: /wp-login.php ?禁止所有搜索引擎访问根目录下的wp-login.php文件 42:Allow: /wp-content/uploads/? ?允许所有搜索引擎访问/wp-content/uploads目录 43:Sitemap: https://blog.ccswust.org/sitemap.xml

Sitemap地址:https://blog.ccswust.org/sitemap.xml

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • zblog博客的robots.txt文件优化正确写法 zblog的robots.txt怎么写?zblog的robots.txt文件示例下载

    robots.txt对于比较seo的站长来说是一个很重要的东西,经常有朋友再问zblog的robots怎么写?本文就来详细说明下。

    雾海梦曦
  • WordPress网站robots.txt怎么写及要注意的地方

    WordPress网站robots.txt怎么写?robots.txt是网站很重要的一个组成部分。它告诉搜索引擎什么文件可以抓取,什么文件不能抓取。它是搜索引擎...

    魏艾斯博客www.vpsss.net
  • 渗透测试之黑白无常“续”

    继上一篇《渗透测试之黑白无常》之后,当时的目标中还有个WordPress网站,虽然为一批目标但是运行环境却不太一样,同上一篇文章一样本文使用本地搭建环境来复现,...

    FB客服
  • 2022年最新 网站不收录处理方法有哪些

    上文咱们大概列举了一些不录入的原因,咱们只需找到当前网站不录入的原因后,对症下药基本上都能快速的处理网站问题。

    文曦
  • WordPress秒变谷歌AMP加速移动页面并自动推送

    沈唁
  • 从WordPress到hexo的必经之路

    本来不打算写关于hexo教程的,Google上关于hexo的文章到处都有,重复造轮子的事情本身意义不大。之前的博客一直使用的是WordPress,朋友说用Wor...

    零式的天空
  • 说说Robots.txt限制收录与Google网站管理员工具

    最近有朋友询问:用谷歌site你的站发现Google没收录你的tag页,我的怎么?有还大部分是 ?站长认为,很多新手估计都不明其中的道理,索性就写篇文章吧。

    星哥玩云
  • 手工检测Web应用指纹的一些技巧

    0x01 Web 应用技术概览 1.1 架构 大多数 web 应用可以粗略划分为三个组件(component)。 1、客户端, 大多数情况下是浏览器。 2、服务...

    FB客服
  • Robots协议探究:如何好好利用爬虫提高网站权重

    站长们通常希望百度、Google 这样的大型搜索引擎来抓取网站内容,但又很厌恶其他来路不明的网络爬虫抓取自己的信息。

    德顺
  • 网络爬虫之网站背景调研建议收藏

      大多数网站都会定义一robots.txt文件,这样可以了解爬取该网站时存在哪些限制,在爬取之前检查robots.txt文件这一宝贵资源可以最小化爬虫被封禁的...

    全栈程序员站长
  • Typecho搜索引擎收录优化

    ``最早的时候博客是使用的WordPress搭建,基于一些原因( 使用Typecho搭建一个极简又好用的技术博客 ),去年选择了用typecho重做。

    雪碧君
  • 爬虫的"盗亦有道"-Robots协议

    网络爬虫的君子协议 ? 执着 网络爬虫的尺寸 小规模,数量小,爬去速度不敏感,requests库 中规模,数据规模较大,爬取速度敏感scrapy库 大规模...

    若与
  • 用Python爬取WordPress官网所有插件

    只要是用WordPress的人或多或少都会装几个插件,可以用来丰富扩展WordPress的各种功能。围绕WordPress平台的插件和主题已经建立了一个独特的经...

    丘壑
  • Robots协议

    用户1112962
  • 爬虫自学篇之一次不正经的爬虫学习经历

    大家好,相信点进来看的小伙伴都对爬虫非常感兴趣(绝对不是因为封面),博主也是一样的。最近由于疫情的原因,大家都不能出门玩耍,所以博主准备分享一些有趣的学习经历给...

    用户5836910
  • WordPress 站点记得要防范恶意的搜索攻击

    什么是恶意搜索攻击?这种恶意搜索攻击,其实非常简单,就是通过既定的网址结构不断对网站发起不良关键词搜索访问,比如 WordPress 的搜索网址结构为 域名/?...

    明月登楼的博客
  • Vulnhub-Bsides Vancouver 2018

    https://www.vulnhub.com/entry/bsides-vancouver-2018-workshop,231/#release

    字节脉搏实验室
  • 网站日志分析完整实践【技术创造101训练营】

    分析网站日志可以帮助我们了解用户地域信息,统计用户行为,发现网站缺陷。操作会面临几个问题

    震八方紫面昆仑侠

作者介绍

夏末浅笑

重庆斯德姆生物技术有限公司前端开发工程师

重庆斯德姆生物技术有限公司 · 前端开发工程师 (已认证)

专栏

精选专题

活动推荐

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券