首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >谷歌又一强大工具开源,Selenium 慌了!

谷歌又一强大工具开源,Selenium 慌了!

作者头像
测试开发技术
发布2026-02-28 19:08:39
发布2026-02-28 19:08:39
240
举报
文章被收录于专栏:测试开发技术测试开发技术

在测试圈混的朋友都知道,过去十几年,Web UI 自动化测试的江湖,几乎是 Selenium 一统天下。

无论你是刚入行的小白,还是资深的技术专家,只要提到 Web 自动化,脑子里蹦出的第一个词,十有八九就是 Selenium。

然后用过Selenium的同学也都知道,为了点一个按钮,我们得去扒网页源码,找 ID,找 Class。一旦网页改版,精心写好的脚本瞬间报错,维护起来既耗时又耗力。遇到动态加载、反爬机制,更是要和前端 “斗智斗勇”,最后可能还得靠人工补漏。

那个时候我就在想,要是有一款工具像人一样,不用抠源码、不用记定位规则,只要说一句 “帮我做 XX”,看一眼屏幕就知道点哪里,该多好。

如今,Google 把这个想法变成了现实。在 GitHub 上开源了一个名为 Computer Use Preview 的项目,让 Gemini 2.5 Pro 模型直接 “接管” 浏览器,把自动化从 “代码堆出来的机械操作”,升级成了 “能看懂、会思考的智能协作”。

这一次,Selenium 可能真的要慌了 —— 不是因为功能被超越,而是自动化的 “游戏规则”,被彻底改写了。

关于更多AI保姆级干货,推荐阅读:从零基础到AI全栈专家:5年陪跑,带你手撸20个企业实战项目(附全景路线图)

1、不止是 “替代”:AI 给浏览器装了 “人类大脑”

传统自动化工具的核心逻辑,始终没跳出 “指令 - 执行” 的框架:你必须告诉 Selenium “找到 ID 为 btn-submit 的按钮并点击”“在 name 为 username 的输入框填内容”,它才会机械执行。一旦网页结构变动(比如 ID 改了、元素嵌套变了),指令就失效了 —— 本质上,它是 “没有灵魂的执行机器”。

而谷歌的 Computer Use Preview,直接给浏览器装了个 “人类大脑”,核心逻辑从 “指令驱动” 变成了 “意图驱动”:你不用管 “怎么操作”,只要说 “要做什么”,AI 自己搞定一切。

它的工作流程看似简单,却藏着颠覆性的思路:

  1. “看” 页面:不扒源码、不查元素,直接对当前浏览器界面截图,捕捉完整的视觉信息(包括文字、按钮位置、色彩区分);
  2. “懂” 需求:结合你输入的自然语言指令和历史操作上下文,Gemini 2.5 Pro 模型分析出核心需求 ——“先找到搜索框→输入关键词→筛选时间→点击下载按钮”;
  3. “做” 动作:模型生成精准的操作指令,工具模拟人类手势(点击、输入、拖拽、滚动)执行,全程不用你写一行定位代码。

简单来说,这个工具背后的逻辑就是模拟人的操作流程:截图 → 分析 → 行动

它会先给网页截个图,通过 Gemini 2.5 Pro 模型强大的视觉能力,分析出页面上有哪些输入框、按钮和下拉菜单,然后决定下一步该干什么。

2、如何快速上手

如果想上手体验,目前有两个选择。

第一种是懒人模式:

不想折腾环境的同学,官方提供了一个在线演示环境,直接打开网页就能试用

代码语言:javascript
复制
https://gemini.browserbase.com/

第二种是开发者模式:

如果需要处理敏感数据(比如公司内部系统),可以本地部署,步骤简单(Python 环境即可):

代码语言:javascript
复制
# 1. 创建虚拟环境(Windows/Mac 通用) 
python3 -m venv .venv 
# Windows 激活:.venv\Scripts\activate 
# Mac/Linux 激活:source .venv/bin/activate

# 2. 安装依赖(自动处理版本兼容) 
pip install -r requirements.txt 

# 安装浏览器内核(支持 Chrome/Firefox/Edge)

playwright install

 # 3. 自定义指令运行(比如自动化搜索) 
 python main.py --query "去Google搜索一下testfaher.cn"

不过需要注意,使用Gemini 驱动AI自动化之前,需要配置API KEY

代码语言:javascript
复制
export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

或者把这个内容添加到你的虚拟环境中:

代码语言:javascript
复制
echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
source .venv/bin/activate

把上述的 YOUR_GEMINI_API_KEY 换成你真正的API KEY即可。

不过需要注意,预览版目前已知的,还有两个小 bug:

  • 在某些系统上,原生下拉菜单(<select> 元素)偶尔识别失败:如果遇到 AI 选不中下拉选项,站在那里发呆,别怀疑,这是目前的已知限制,可暂时用 “点击下拉框→输入选项文字→回车” 的指令替代;
  • 超大文件下载支持有限:目前单次下载文件建议不超过 100MB,大文件可能会卡顿。

最后:Selenium 会被淘汰吗?

很多人问:像Computer Use Preview这类AI工具出来后,Selenium 是不是要凉了?其实未必 —— 两者的定位不同:

  • Selenium 适合 “固定场景、高频重复” 的自动化(比如固定结构的表单提交),稳定性强、资源占用低;
  • Computer Use Preview 适合 “复杂场景、灵活需求”(比如跨平台、动态网页、视觉交互),省掉大量调试成本。

短期来看,两者会互补:比如用 Selenium 处理固定流程,用 AI 工具应对突发的复杂需求;但长期来看,AI 驱动的 “意图式自动化” 一定会成为主流 —— 毕竟,开发者的时间应该花在核心逻辑上,而不是反复调试元素定位。

如果你也受够了 Selenium 的 “死板”,不妨试试这款工具,体验一下 “指挥 AI 干活” 的快乐。

GitHub 项目地址:https://github.com/google-gemini/computer-use-preview

你觉得这款工具能替代 Selenium 吗?欢迎在评论区聊聊你的看法~

我们下期再见,Respect!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 测试开发技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、不止是 “替代”:AI 给浏览器装了 “人类大脑”
  • 2、如何快速上手
  • 最后:Selenium 会被淘汰吗?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档