前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何屏蔽各大AI公司爬虫User Agent

如何屏蔽各大AI公司爬虫User Agent

作者头像
ytkah
发布2023-12-31 07:58:04
1250
发布2023-12-31 07:58:04
举报
文章被收录于专栏:ytkahytkah

GPTBot

GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。

30%的大站屏蔽了它

代码语言:javascript
复制
User-agent: GPTBot
Disallow: /

ChatGPT-User

ChatGPT-User 由 OpenAI 的 ChatGPT 根据用户prompts提示派遣的。它的回答通常包含网站内容摘要,而不是直接转发给用户。

10%的大站屏蔽了它

代码语言:javascript
复制
User-agent: ChatGPT-User
Disallow: /

cohere-ai

Cohere 是一家提供高级 LLM(大型语言模型)访问权限的公司,其他公司可利用这些 LLM 增强其人工智能产品。cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。

1%的大站屏蔽了它

代码语言:javascript
复制
User-agent: cohere-ai
Disallow: /

Google-Extended

Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品(如 Bard 和 Vertex 人工智能生成应用程序接口)。

11%的大站屏蔽了它

代码语言:javascript
复制
User-agent: Google-Extended
Disallow: /

CCBot

CCBot 是 Common Crawl 使用的一种网络爬虫,用于维护一个开放源代码的网络爬行数据存储库,任何人都可以使用该存储库。该资源库已被用于训练许多 LLM(大型语言模型),包括 OpenAI 的 GPT-3。

13%的大站屏蔽了它

代码语言:javascript
复制
User-agent: CCBot
Disallow: /

Omgilibot

Omgilibot 是 Webz.io 用来维护网络抓取数据存储库的网络爬虫,Webz.io 将其出售给其他公司,包括那些用它来训练人工智能模型的公司。  

1%的大站屏蔽了它

代码语言:javascript
复制
User-agent: omgilibot
Disallow: /

User-agent: omgili
Disallow: /

FacebookBot

FacebookBot 是 Meta 用来下载人工智能语音识别技术训练数据的网络爬虫。

0%的大站屏蔽了它

代码语言:javascript
复制
User-agent: FacebookBot
Disallow: /

anthropic-ai

anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。

2%的大站屏蔽了它

代码语言:javascript
复制
User-agent: anthropic-ai
Disallow: /

Twitterbot

Twitterbot 是一个常用的代理。它目前没有被归类为人工智能或与人工智能相关的任何类别。Twitter现更名为X。不确定是不是Grok的User Agent。埃隆-马斯克Elon Musk的人工智能公司 xAI 推出了一款名为 Grok 的人工智能聊天机器人。

11%的大站屏蔽了它

代码语言:javascript
复制
User-agent: Twitterbot
Disallow: /
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GPTBot
  • ChatGPT-User
  • cohere-ai
  • Google-Extended
  • CCBot
  • Omgilibot
  • FacebookBot
  • anthropic-ai
  • Twitterbot
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档