首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用.htaccess阻止谷歌机器人从4-6位数字结尾的URL,REGEX?

使用.htaccess阻止谷歌机器人从4-6位数字结尾的URL,REGEX?
EN

Stack Overflow用户
提问于 2019-02-05 23:48:03
回答 1查看 29关注 0票数 0

我们如何编写.htaccess来阻止Googlebot UA访问以正斜杠结尾的URL,后跟4-6位数字?

我们浪费了大量的Googlebot抓取预算,因为它抓取的是“无索引”页面。

计划是使用.htaccess阻止UA访问以正斜杠结尾的URL,后跟4-6个数字。

例如:

代码语言:javascript
复制
https://example.com/folder/folder/12563
https://example.com/folder/folder/125637
https://example.com/folder/folder/1563

我认为REGEX看起来像这样:

代码语言:javascript
复制
\/\d{4,6}$

但是我如何配置.htaccesss,并且只针对特定的UA (googlebot)?

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2019-02-06 00:54:40

您可以使用以下命令:

代码语言:javascript
复制
RewriteEngine on

RewriteCond ℅{HTTP_USER_AGENT} googlebot [NC]
RewriteRule /\d{4,6}$ - [F,L]

如果googlebot试图访问您服务器上的受限URL,这将返回一个Forbidden HTTP 403 error

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54538146

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档