首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI 爬虫处置实操:用 EdgeOne 一键拦截 20+ 种 AI 爬虫

AI 爬虫处置实操:用 EdgeOne 一键拦截 20+ 种 AI 爬虫

原创
作者头像
EdgeOne 小助手
发布2026-04-27 16:53:46
发布2026-04-27 16:53:46
640
举报

先说结论:如果你有一个公开可访问的网站,大概率正在被 AI 爬虫批量抓取,而你可能完全不知道。

腾讯云 EdgeOne 最近发布了《腾讯云 2025 年 DDoS 与应用安全威胁趋势报告》,里面有一组数据:

● Bot 流量已占全网互联网流量的近四成,AI 爬虫是增长最快的类型

● 一个普通的电商导购站,单日 AI 爬虫请求量接近 20 万次

● 一个技术教程站,单日接近 19 万次

● 一个小说站,单日接近 18 万次

这些不是什么大型互联网平台——就是个人站、小团队的站。而且 AI 爬虫不执行 JavaScript,不会出现在 Google Analytics 或百度统计里。你在数据面板上看不到它们,但你的服务器带宽和算力在真实消耗。

一、先确认:你的站到底有没有被 AI 爬虫抓

在做任何配置之前,先看一眼数据。EdgeOne 控制台的「数据分析」→「指标分析」可以直接看到 Bot 流量的分布。

操作步骤

1. 登录 EdgeOne 控制台

2. 在左侧导航栏选择你的站点

3. 进入「数据分析」→「指标分析」

4. 在页面上方筛选你要查看的域名时间范围(建议先看最近 7 天)

5. 关注以下几个维度:

请求量趋势:如果请求量远超你的实际用户量,大概率有 Bot

客户端类型分布:观察 Bot 类请求的占比

UA(User-Agent)分布:AI 爬虫通常带有特定的 UA 标识,如 GPTBot、ClaudeBot、Bytespider、CCBot 等

怎么判断

现象

说明

请求量远高于 GA/百度统计的 PV

AI 爬虫不执行 JS,不被前端统计捕获

UA 列表中出现 GPTBot、ClaudeBot、Bytespider、CCBot、anthropic-ai 等

这些是主流 AI 爬虫的标识

某些 Path 的请求量异常高(如 /sitemap.xml、/feed、全站文章页)

AI 爬虫倾向于先读 sitemap 再批量抓取

请求来源 IP 高度分散但行为模式统一

AI 爬虫通常使用分布式 IP 池

> 💡 Tip: 如果你发现 Bot 请求占比不低,但在之前的流量统计中从来没注意到——这就对了,因为 AI 爬虫对你的前端统计是"隐身"的。

二、核心操作:一键开启 AI 爬虫处置

确认有 AI 爬虫活动后,接下来开启防护。

2.1 找到配置入口

完整路径:

> 控制台 → 选择站点 →「安全防护」→「Web 防护」→ 顶部切换到目标域名的域名级防护策略 → 「Bot 管理」→「基础 Bot 管理」」→「AI 爬虫处置」

2.2 开启 AI 爬虫

开启「AI 爬虫处置」,再根据网站情况自行选择处置方式

如果你有不同的网站类型,可以参考以下策略

域名业务类型

建议策略

理由

博客

拦截 或 JS 挑战

原创内容是核心资产,防止被抓取用于模型训练

官网

放行 或 观察

官网内容希望被 AI 索引,增加在 AI 搜索中的曝光

API

拦截

防止 API 返回值被批量抓取,节省调用配额

文档站

根据需要选择

如果希望 AI 能引用你的文档内容可以放行,否则拦截

> ⚠️ 重要提醒:

> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响

> - 特征库覆盖 20+ 种主流 AI 爬虫,且持续更新

> - 所有套餐(含免费版)都能用这个功能

立即配置

2.3 验证配置生效

配置完成后,验证方式:

1. 回到「数据分析」→「指标分析」

2. 筛选配置后的时间段

3. 观察 Bot 请求量的变化趋势

> 💡 Tip: 建议先用「观察」模式运行 1-3 天,确认识别范围符合预期后再切换为「拦截」。这样可以避免误伤。

三、完整威胁数据

本文的操作教程基于《腾讯云 2025 年 DDoS 与应用安全威胁趋势报告》中的数据背景。完整报告还包含:

● 📊 DDoS 攻击全年趋势——攻击峰值突破 4 Tbps,同比增长近 3 倍

● 📊 HTTP/S 应用层攻击模式转变——从小规模试探到超大规模集中爆发

● 📊 Bot 与 AI 爬虫威胁全景——流量占比、行业对比、技术演进

● 📊 各行业安全威胁对比——游戏、电商、内容、政务等行业的差异化分析

● 📊 EdgeOne 完整安全防护方案

报告以长图形式呈现,包含数十张数据图表和行业深度分析。

👉免费获取完整报告

EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。具体解决方案请查看《EdgeOne 站点安全加固指南:从指标分析到自定义规则,手把手配置》

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、先确认:你的站到底有没有被 AI 爬虫抓
    • 操作步骤
    • 怎么判断
  • 二、核心操作:一键开启 AI 爬虫处置
    • 2.1 找到配置入口
    • 2.2 开启 AI 爬虫
    • 2.3 验证配置生效
  • 三、完整威胁数据
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档