在测试圈混的朋友都知道,过去十几年,Web UI 自动化测试的江湖,几乎是 Selenium 一统天下。
无论你是刚入行的小白,还是资深的技术专家,只要提到 Web 自动化,脑子里蹦出的第一个词,十有八九就是 Selenium。
然后用过Selenium的同学也都知道,为了点一个按钮,我们得去扒网页源码,找 ID,找 Class。一旦网页改版,精心写好的脚本瞬间报错,维护起来既耗时又耗力。遇到动态加载、反爬机制,更是要和前端 “斗智斗勇”,最后可能还得靠人工补漏。
那个时候我就在想,要是有一款工具像人一样,不用抠源码、不用记定位规则,只要说一句 “帮我做 XX”,看一眼屏幕就知道点哪里,该多好。
如今,Google 把这个想法变成了现实。在 GitHub 上开源了一个名为 Computer Use Preview 的项目,让 Gemini 2.5 Pro 模型直接 “接管” 浏览器,把自动化从 “代码堆出来的机械操作”,升级成了 “能看懂、会思考的智能协作”。

这一次,Selenium 可能真的要慌了 —— 不是因为功能被超越,而是自动化的 “游戏规则”,被彻底改写了。
关于更多AI保姆级干货,推荐阅读:从零基础到AI全栈专家:5年陪跑,带你手撸20个企业实战项目(附全景路线图)
传统自动化工具的核心逻辑,始终没跳出 “指令 - 执行” 的框架:你必须告诉 Selenium “找到 ID 为 btn-submit 的按钮并点击”“在 name 为 username 的输入框填内容”,它才会机械执行。一旦网页结构变动(比如 ID 改了、元素嵌套变了),指令就失效了 —— 本质上,它是 “没有灵魂的执行机器”。
而谷歌的 Computer Use Preview,直接给浏览器装了个 “人类大脑”,核心逻辑从 “指令驱动” 变成了 “意图驱动”:你不用管 “怎么操作”,只要说 “要做什么”,AI 自己搞定一切。
它的工作流程看似简单,却藏着颠覆性的思路:

简单来说,这个工具背后的逻辑就是模拟人的操作流程:截图 → 分析 → 行动。
它会先给网页截个图,通过 Gemini 2.5 Pro 模型强大的视觉能力,分析出页面上有哪些输入框、按钮和下拉菜单,然后决定下一步该干什么。
如果想上手体验,目前有两个选择。
第一种是懒人模式:
不想折腾环境的同学,官方提供了一个在线演示环境,直接打开网页就能试用
https://gemini.browserbase.com/

第二种是开发者模式:
如果需要处理敏感数据(比如公司内部系统),可以本地部署,步骤简单(Python 环境即可):
# 1. 创建虚拟环境(Windows/Mac 通用)
python3 -m venv .venv
# Windows 激活:.venv\Scripts\activate
# Mac/Linux 激活:source .venv/bin/activate
# 2. 安装依赖(自动处理版本兼容)
pip install -r requirements.txt
# 安装浏览器内核(支持 Chrome/Firefox/Edge)
playwright install
# 3. 自定义指令运行(比如自动化搜索)
python main.py --query "去Google搜索一下testfaher.cn"
不过需要注意,使用Gemini 驱动AI自动化之前,需要配置API KEY
export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"
或者把这个内容添加到你的虚拟环境中:
echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
source .venv/bin/activate
把上述的 YOUR_GEMINI_API_KEY 换成你真正的API KEY即可。
不过需要注意,预览版目前已知的,还有两个小 bug:
<select> 元素)偶尔识别失败:如果遇到 AI 选不中下拉选项,站在那里发呆,别怀疑,这是目前的已知限制,可暂时用 “点击下拉框→输入选项文字→回车” 的指令替代;很多人问:像Computer Use Preview这类AI工具出来后,Selenium 是不是要凉了?其实未必 —— 两者的定位不同:
短期来看,两者会互补:比如用 Selenium 处理固定流程,用 AI 工具应对突发的复杂需求;但长期来看,AI 驱动的 “意图式自动化” 一定会成为主流 —— 毕竟,开发者的时间应该花在核心逻辑上,而不是反复调试元素定位。
如果你也受够了 Selenium 的 “死板”,不妨试试这款工具,体验一下 “指挥 AI 干活” 的快乐。
GitHub 项目地址:https://github.com/google-gemini/computer-use-preview
你觉得这款工具能替代 Selenium 吗?欢迎在评论区聊聊你的看法~
我们下期再见,Respect!