前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在nginx上配置禁止搜索引擎爬虫访问网站

在nginx上配置禁止搜索引擎爬虫访问网站

作者头像
灯珑LoGin
发布2023-10-18 10:39:53
8420
发布2023-10-18 10:39:53
举报
文章被收录于专栏:龙进的专栏

是这么一回事:code.DragonOS.org的引擎,最近总是被某个爬虫刷我们的流量,导致产生费用。而这个网站不需要爬虫抓取,因此我想到了配置robots.txt来禁止爬虫抓取。但是,这个网站部署在我们实验室的服务器上,是通过frp映射到阿里云的服务器上,并且由服务器上面的nginx反向代理,最终才能被公网访问。

并且,由于这个网站我采用的是官方的docker镜像,不是很方便修改这个镜像里面的文件(更新新的官方镜像之后,自己的修改就会丢失了)。因此想要在nginx上面配置访问/robots.txt时给用户返回的内容。

要禁止爬虫访问,robots.txt的格式只要是这样即可:

代码语言:javascript
复制
User-agent: *
Disallow: /

这样就能禁止那些搜索引擎来访问它了。(大部分的bot都是遵守这个协议的)

要实现上述功能,而不在磁盘上创建这样一个文件的话,可以在nginx的配置文件中,反向代理的配置之前,加入下面这串配置即可:

代码语言:javascript
复制
location =/robots.txt {
    default_type text/html;
    add_header Content-Type "text/plain; charset=UTF-8";
    return 200 "User-Agent: *\nDisallow: /";
}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年12月24日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档