前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GPTBot介绍 - plus studio

GPTBot介绍 - plus studio

作者头像
plus sign
发布2024-02-29 08:24:05
1140
发布2024-02-29 08:24:05
举报
文章被收录于专栏:个人博客

GPTBot介绍

最近,openai公布了GPTBot 的相关信息,并给出了禁止GPTBot的方法。以下是全文翻译。

GPTBot是OpenAI的网络爬虫,可以通过以下User agent和字符串来识别。

代码语言:text
复制
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用

使用 GPTBot 用户代理爬取的网页可能会用于改进未来的模型,并且会过滤掉需要付费访问、已知收集个人身份信息(PII)或含有违反我们政策的文本的来源。允许 GPTBot 访问您的网站可以帮助 AI 模型变得更准确,提高它们的一般能力和安全性。在下面,我们还分享了如何禁止 GPTBot 访问您的网站。

禁止 GPTBot

要禁止 GPTBot 访问您的网站,您可以将 GPTBot 添加到您网站的 robots.txt:

代码语言:text
复制
User-agent: GPTBot
Disallow: /

自定义 GPTBot 访问

要允许 GPTBot 仅访问您网站的部分内容,您可以将 GPTBot 令牌添加到您网站的 robots.txt,如下所示:

代码语言:text
复制
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP 出口范围

对于 OpenAI 的爬虫,它会从 OpenAI 网站上记录的 IP 地址段向网站发出请求。

这里我给出IP 地址段

代码语言:text
复制
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-8-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GPTBot介绍
    • 使用
      • 禁止 GPTBot
      • 自定义 GPTBot 访问
      • IP 出口范围
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档