前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何屏蔽GPTBot抓取网站内容

如何屏蔽GPTBot抓取网站内容

作者头像
ytkah
发布2023-08-11 17:19:51
3610
发布2023-08-11 17:19:51
举报
文章被收录于专栏:ytkahytkah

8月8日,OpenAI 推出了GPTBot,和谷歌、Bing等类似的网络爬虫工具,能够自动抓取网站的数据,用来训练 GPT-4 或 GPT-5,提升未来人工智能系统的准确性和能力。

什么是GPTBot
什么是GPTBot

GPTBot user-agent

可通过以下代码识别

代码语言:javascript
复制
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; 
compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot的IP地址是多少

代码语言:javascript
复制
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

详情参考https://openai.com/gptbot-ranges.txt

如何禁止GPTBot访问

1、你可以通过robots.txt文件禁止 OpenAI 对自己的网站访问,不将自己的数据用来训练,代码如下。GPTBot会遵循robots协议,

代码语言:javascript
复制
User-agent: GPTBot
Disallow: / 

  你还可以通过以下代码,来控制 GPTBot 对网站部分内容的访问。

代码语言:javascript
复制
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

2、你也可以将以上ip段加入到防火墙来屏蔽GPTBot

3、将user-agent加入到防火墙

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-08-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GPTBot user-agent
  • GPTBot的IP地址是多少
  • 如何禁止GPTBot访问
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档