首页
学习
活动
专区
圈层
工具
发布

把浏览器当“外设”:Browser MCP 真正让 AI 动手。。。

今天刷到一个事,有点意思…Browser MCP/mcp。对,就是那个给 AI 装“手脚”的浏览器自动化玩意儿。不是单纯给你塞个 SDK,让你自己再绑线,而是——一端是 MCP 服务器,一端是 Chrome 扩展,像插上“USB-C”的那种通用口子,让 Claude、Cursor、VS Code、Windsurf 这票 AI 应用,直接在你正在用的浏览器里点点点、填表、截屏、拿数据…反正能“动手”的都安排了。官方自己说的:本地自动化、沿用你现成的登录态、尽量躲开基础级反爬,还强调隐私在本地不出门…看着就挺会讲故事的。

等等,我先说个事…他们 README 里把“这是 MCP 服务器 + Chrome 扩展”“支持 Claude / Cursor / VS Code / Windsurf”“Apache-2.0 开源许可”这些都写得明晃晃,还挂上官网和文档入口,Stars 现在 4.7k、Forks 352(写稿这会儿)。感觉不是“做了个浏览器脚本合集”,而是“把自动化做成了 MCP 设备驱动”,你把 AI 当主机,它当外设,插上就能用。

功能亮点:

不是云端 puppeteer 起浏览器,是“动你正在用的那个浏览器”。好处?你现成的 cookie / 登录态全带着走,很多需要登录的后台页面,AI 直接能进门操作;而且走本地,延迟更低。 AI 客户端矩阵:Claude 桌面端、Cursor、VS Code、Windsurf 都能挂 MCP 服务器,一接就通。官网解释得很白:把 AI 应用接到你的浏览器上,做表单填写、导航、采集、测试都行。 扩展一键“Connect”当前标签页:所有动作都落在你连上的那个 Tab 上,省得 AI 瞎跑(社区也有人提醒:记得只控那个连接的页)。 Chrome 商店有上架条目,介绍里把“自动化测试、表单、数据提取、一般交互”列成典型场景。 “避障”小心机:README 里直接写了“Stealth、CAPTCHA 基础绕过、真实指纹”,意思是不走那套被一眼识破的无头浏览器套路。别想太多,基础级别的防呆,不是无敌披风。

形态:MCP Server + Chrome Extension。MCP 这玩意儿你可以想成 AI 应用的“通用外设协议”,微软最近还说要在 Windows 里原生拥抱它,媒体都爱叫它“AI 的 USB-C”。生态趋势是真的在起浪。 代码基因:从 Playwright MCP server 改装而来,但不是“起一个全新干净浏览器”,而是“接管用户现有浏览器实例”,所以才能吃到你的已登录会话、也更不容易被初级风控卡。 许可与开发节奏:仓库标 Apache-2.0。README 也写了“当前仓只放核心 MCP 代码,完全独立构建还依赖 monorepo 中的 utils/types”。这句等于是提醒:你能用、能提 Issue,但要深改得看他们主工程合并节奏。

三分钟“能跑版”:

我把官方“最短路径”掐成一条你能直接抄的(别紧张,真的就这几步):

在 AI 客户端里挂上 MCP 服务器 比如 Cursor / Claude / VS Code / Windsurf 里添加如下 config(官方示例几乎一致):

{

"mcpServers": {

  "browsermcp": {

    "command": "npx",

    "args": ["@browsermcp/mcp@latest"]

  }

}

}

官方文档里还贴心备注:Claude Desktop 目前有个“启动两次”的已知 bug,报错但还能用,属于“吵闹但不影响吃饭”的类型。

装扩展并“连上当前标签页”

安装 Browser MCP 扩展(有商店条目/官网入口)。 固定到工具栏 点图标 点 Connect。从这刻起,AI 的所有动作,都只打在你连的这个 Tab 上。

开始让 AI 干活 你爱用谁就用谁:让 Claude/Cursor 写个“把这个表单批量填完”的小流程,或在 VS Code 让它做一轮端到端 UI 烟雾测试,都行。官方文案里就列了“导航 / 表单 / 数据提取 / 自动化测试”四大金刚。

起步门槛还行:不要求你先把一套“云浏览器”起起来,按文档在本地装个 Node、在客户端加个 MCP config、扩展点一下 Connect,就能跑。对“先做个 demo 再谈集成”的团队挺友好。 “用我的浏览器、我的登录态”这点…真的省事:比如公司内网的工单系统、SaaS 后台之类,AI 不用走登录流程复刻 cookie,直接开干。 社区反馈活跃:Issue 里开放讨论的方向挺接地气——多标签切换、截图占 token、日志抓取、无服务端也能连等。说明这货不是“概念片”,是真的被拿来干活了。

多标签/切换还在演进中。你要让 AI 在一堆 Tab 里跳来跳去,现在需要点技巧(或等他们把 API 和约束更顺一点)。Issue 里就有人问“怎么切换标签”。 安全姿势 要自己补完:MCP 本身是“通道/协议”,不是你的安全管家。最近有安全文章点名 MCP 生态的“身份碎片化”问题——不是协议背锅,而是大家在密钥、权限上各玩各的,容易出洞。企业落地建议配统一身份 & 最小权限 & 临时凭证这三板斧。 反爬不是免死金牌:README 提到的“Stealth / CAPTCHA 基础绕过”更多是“减少被误杀”,不是“肆无忌惮”。合规场景用它提效 OK,侵入式采集就别想了。 文档偶有 404 / 细节需追:Mintlify 文档偶尔会有链接跳丢,遇到就从侧边栏“Set up server/extension”进,有。

内测/灰度线:选一个“可量化”的重复网页任务(批量填单/后台对账/回归点点点),把它写成提示词套路 + MCP 工具调用清单 每日跑一次,量化“人机对照用时/成功率”。(遇到表单变化就拉回到提示词或工具修一下) 测试线(QA/前端):把 E2E 的一小段从 Playwright 脚本换成“Claude(或 Cursor)+ Browser MCP”,让 AI 直接在真实登录态里做“冒烟 + 截图 + 断言”。失败就丢回 MR 里当评论。 运营线(低代码自动化):运营小伙伴在 VS Code / Windsurf 里开 MCP,把“每天要跑的 5 个后台动作”做成 指令库(像宏一样),交给 AI 轮询处理,人盯异常单就好。官方和微软这边都在推 MCP 生态,兼容面会越来越广。

Claude 桌面端报“两次启动” 先别慌,是已知 bug,能用;等官方修。 连了不动 看扩展是不是连对 Tab 了(只控连上的那个),必要时重点Connect一下。 截图太大顶满上下文 控制截图区域/频率,或用“先抽取结构化数据、关键处再截”这类策略。

这条赛道今年直接热起来了:有“云浏览器 + MCP”的托管版、也有民间增强版(改进选取、分 Tab、降 token 消耗)。但 Browser MCP 的“就地接管你的浏览器”这件事,目前是最顺手的路径之一。 GitHub 刚推了官方 MCP Registry,发现/安装/管理 MCP 服务器都归档了,后面找工具会更省心(也能更规范地收敛权限/来源)。

优势:接在“你自己这台浏览器”上,登录态现成、延迟低;接入主流 AI 客户端省脑子;本地优先、隐私边界更直观。 短板:多标签/会话管理还在演进;协议层安全需要你配企业级身份与权限;文档偶有链接抖动。

出一版“多标签任务”最佳实践:比如显式 API(打开/聚焦/轮询活跃标签)+ 样例提示词,直接把常见“下单—回查—下载对账”这类多页流程写成模板。 官方“安全清单”:把最小权限、一次性/短时令牌、操作审计、敏感域名锁定这类做法写成一页图,顺手给企业做内网合规卡点。 断点续操作 & 失败策略:提供内置“重试/回滚/截图报告”骨架,失败别只扔报错,自动拼个“走到了哪一步 + 截图 + 建议恢复”。 更硬的“人机共驾”UI:扩展里给个“正在做什么”的实时脚本视图 + 可打断/单步执行,给第一次用的人一点安全感。

对了,顺带一提…如果你就是想“先上手再评估”,最省事的路径大概是:在 Cursor 里加上上面那段mcpServers 安装扩展并点一下Connect 让 AI 给你把某个后台页面的表单跑一遍(别挑太阴间的) 出一份截图+校验的小报告。第一次跑通会有点上头,真的。反正就这样:一句话带走——Browser MCP 不是“又一个爬虫库”,而是把浏览器当成 MCP 外设插给 AI,用现有登录态做真实页面自动化的那种;要落地,就从 接入一个客户端验证链路 把一个重复网页任务模板化 配好权限与审计,基本就能跑起来了。

该项目开源地址在这里:github.com/BrowserMCP/mcp

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OOwfmJj8EDmZ0f0GdiEc_Sow0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券