
大家好,这里是 Agentic AI,我是 Mountain。最近刷 GitHub 时,发现了一个挺有意思的开源项目 —— Bytebot。它的定位很特别:不是在浏览器里跑的工具,而是一个真正拥有自己“电脑”的桌面智能体。简单来说,Bytebot 就像是一个虚拟员工:它能看屏幕、点鼠标、敲键盘,还能用各种软件,完成复杂的多步骤任务。这就是数字时代的牛马吧!
先看一下这个演示视频,我感觉用来测试,干活,甚至是爬虫可能也是蛮好用的。
任务提示:在浏览器中打开 GitHub,并使用 bot@bytbot.ai 登录。Bitwarden 扩展已安装,它会自动为你填写密码。如果系统要求输入一次性密码,你可以从 Bitwarden 扩展中复制。
Bytebot由4个模块组成,

项目本身提供了两种方式:Railway 一键部署和本地 Docker Compose部署,这里我们只看本地部署。
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
echo"OPENAI_API_KEY=sk-..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d然后访问 http://localhost:9992 就能看到它的桌面界面。能接入 OpenAI、Anthropic、Gemini 等不同模型,也支持本地Ollama启动的大模型。
还支持本地API调用呢,可玩性真的高。
importrequests
# Simple task
response=requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files= {'files': open('contracts.pdf', 'rb')}
response=requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)从我的角度看,Bytebot 有点像是 **RPA 的进化版。随着多模态大语言模型生态发展,这种助手雏形未来真的会成为标配,动动嘴巴就有人干活。所以这个时代,是不是学一下管理技能比较好,或者学一下乔布斯的产品逻辑,毕竟有claude code给你写代码了,不是么?