首页
学习
活动
专区
圈层
工具
发布
MCP广场 >详情页
UI-TARS 桌面版2026-04-06583分享添加福利群:解决AI开发者的「MCP实战痛点」
UI-TARS 桌面版是一款基于视觉语言模型的图形用户界面代理应用程序,允许用户通过自然语言控制计算机。它支持跨平台操作(Windows/MacOS/浏览器),并提供精确的鼠标和键盘控制、截图与视觉识别功能。该应用程序强调本地处理,确保私密性和安全性,并支持实时反馈与状态显示。UI-TARS 桌面版通过重新设计的代理界面和高级模型,提升了计算机操作的自动化体验,适用于多种场景,如浏览器操作和文件系统管理。
By bytedance
2026-04-06583
github
详情内容

[!IMPORTANT]

[2025-03-18] 我们发布了一款新桌面应用程序的技术预览版本——Agent TARS,这是一个多模态AI代理,通过视觉解析网页并无缝集成命令行和文件系统来利用浏览器操作。

UI-TARS

UI-TARS 桌面版

UI-TARS 桌面版是一款基于 UI-TARS(视觉语言模型) 的图形用户界面代理应用程序,允许您使用自然语言控制计算机。

   📑 论文    | 🤗 Hugging Face 模型   |   🫨 Discord   |   🤖 ModelScope  
🖥️ 桌面应用程序    |    👓 Midscene(在浏览器中使用)    |    Ask DeepWiki.com

展示

指令 视频
请帮我打开 VS Code 的自动保存功能,并在 VS Code 设置中将自动保存操作延迟 500 毫秒。
你能帮我查看 UI-TARS-Desktop 项目在 GitHub 上的最新开放问题吗?

新闻

  • [2025-04-17] - 🎉 我们很高兴地宣布发布新的 UI-TARS 桌面应用程序 v0.1.0,该版本采用了重新设计的代理界面。该应用程序增强了计算机使用体验,引入了新的浏览器操作功能,并支持 高级 UI-TARS-1.5 模型,以提升性能和精确控制。
  • [2025-02-20] - 📦 推出了 UI TARS SDK,这是一个强大的跨平台工具包,用于构建图形用户界面自动化代理。
  • [2025-01-23] - 🚀 我们更新了 云端部署 部分,并新增了与 ModelScope 平台相关的信息。您现在可以使用 ModelScope 平台进行部署。

功能

  • 🤖 由视觉语言模型驱动的自然语言控制
  • 🖥️ 截图和视觉识别支持
  • 🎯 精确的鼠标和键盘控制
  • 💻 跨平台支持(Windows/MacOS/浏览器)
  • 🔄 实时反馈和状态显示
  • 🔐 私密且安全——完全本地处理

快速开始

请参阅 快速开始

部署

请参阅 部署

贡献

请参阅 CONTRIBUTING.md

SDK(实验性)

请参阅 @ui-tars/sdk

许可证

UI-TARS 桌面版遵循 Apache 2.0 许可证。

引用

如果您在研究中发现我们的论文和代码有用,请考虑给予星标 :star: 和引用 :pencil:

@article{qin2025ui,
  title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
  author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
  journal={arXiv preprint arXiv:2501.12326},
  year={2025}
}
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档