首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Clawdbot开源了,Siri该有的样子,在手机里指挥AI干活

Clawdbot开源了,Siri该有的样子,在手机里指挥AI干活

作者头像
Ai学习的老章
发布2026-01-27 11:15:13
发布2026-01-27 11:15:13
2.6K0
举报

大家好,我是 Ai 学习的老章

给大家介绍个开源项目,在外面被吹上天了——Clawdbot,号称目前最接近"真正的个人AI助手"的开源实现——你通过 WhatsApp、Telegram、Discord、Slack、Signal、iMessage、甚至微软 Teams,就能指挥一个运行在你自己设备上的 AI 帮你处理各种任务。

简介

"Everything Siri was supposed to be. And it goes so much further."(这就是 Siri 本该有的样子,而且它做得更多。)

Clawdbot 是什么?

官方一句话定义:**The AI that actually does things.**(真正能做事的 AI。)

它能帮你清理收件箱、发送邮件、管理日历、帮你登机check-in——而且这一切都发生在你熟悉的聊天软件里:WhatsApp、Telegram、或者你日常用的任何 App。

本地优先(Local-first):Clawdbot 运行在你自己的设备上。你可以跑在 Mac、Windows(WSL2)或 Linux 上。数据不会上传到第三方服务器,隐私完全由你掌控。

架构设计:它采用 Gateway(网关)+ Channels(渠道)+ Agent(智能体)的三层架构:

代码语言:javascript
复制
WhatsApp / Telegram / Slack / Discord / Signal / iMessage / Teams / WebChat
                              │
                              ▼
                    ┌───────────────────┐
                    │     Gateway       │
                    │  (控制平面)        │
                    │ ws://127.0.0.1    │
                    └─────────┬─────────┘
                              │
        ┌─────────────────────┼─────────────────────┐
        │                     │                     │
   Pi Agent (RPC)        CLI 命令行          macOS/iOS/Android

Gateway 是控制中心,各种聊天渠道通过 WebSocket 连接进来,Agent 在本地运行处理请求。

核心能力

Clawdbot 不是一个简单的聊天机器人,而是一套完整的个人 AI 基础设施。让我逐一拆解:

1. 全渠道接入(14+ 聊天平台)

这是它最惊艳的能力。支持的聊天平台包括:

平台

接入方式

说明

WhatsApp

QR 码扫码配对(Baileys)

最常用的方式

Telegram

Bot Token(grammY)

机器人 API

Discord

Bot Token(discord.js)

服务器、频道、私聊

Slack

Workspace App(Bolt)

企业级支持

Signal

signal-cli

隐私优先

iMessage

imsg(AppleScript 桥接)

macOS 专属

BlueBubbles

扩展

iMessage 的另一种方式

Microsoft Teams

企业级扩展

支持企业场景

Matrix

Matrix 协议

开源协议

Nextcloud Talk

自托管

自建聊天服务

Nostr

NIP-04 加密 DM

去中心化

Zalo / Zalo Personal

Bot API / QR 登录

越南流行

WebChat

浏览器界面

Gateway 内置

这意味着什么? 意味着你不用切换 App,不用开新网页,直接在你每天都在用的聊天软件里,就能指挥 AI 干活。

2. 多模型支持(Anthropic、OpenAI、DeepSeek...)

Clawdbot 不锁定某个模型,支持:

厂商

支持模型

Anthropic

Claude Pro/Max + Opus 4.5(强烈推荐)

OpenAI

GPT-4, GPT-5, o1

Google

Gemini 2.5 Pro/Flash

xAI

Grok 3 & 4

DeepSeek

DeepSeek V3 & R1

Mistral

Mistral Large & Codestral

GLM

ChatGLM 系列

OpenRouter

统一 API 网关

Hugging Face

开源模型

本地模型

Ollama, LM Studio

官方强烈推荐 Anthropic Claude Pro/Max(100/200)+ Opus 4.5,理由是长上下文能力强、抗提示词注入能力好。如果你有 Claude 订阅,这是最佳选择。

没订阅也行,用 API Key 或者本地模型都可以。

3. 浏览器控制(Browser Tool)

这是 Clawdbot 最硬核的能力之一:真正的浏览器 RPA

它会创建一个独立的 Chrome/Chromium Profile(默认叫 clawd,橙色主题),与你日常浏览器隔离。然后通过 CDP(Chrome DevTools Protocol)+ Playwright 进行控制。

能做什么?

  • 确定性标签控制:列出/打开/聚焦/关闭标签页
  • Agent 操作:点击、输入、拖拽、选择
  • 页面快照:AI 能"看到"页面内容
  • 截图 & PDF:生成截图、导出 PDF
  • 表单填写:自动填写复杂表单
  • 多 Profile 支持:可以配置 clawdworkremote 等多个 Profile
代码语言:javascript
复制
# 查看浏览器状态
clawdbot browser --browser-profile clawd status

# 启动浏览器
clawdbot browser --browser-profile clawd start

# 打开网页
clawdbot browser --browser-profile clawd open https://example.com

# 获取页面快照(AI 用来理解页面)
clawdbot browser --browser-profile clawd snapshot

# 点击页面元素(通过 ref 标识)
clawdbot browser click 12
clawdbot browser type 23 "hello world"

# 等待页面状态
clawdbot browser wait --url "**/dashboard"
clawdbot browser wait --load networkidle
clawdbot browser wait "#main-content"

高级功能

  • 支持设置 Cookies、LocalStorage
  • 模拟地理位置、时区、语言
  • 设置设备类型(如模拟 iPhone 14)
  • HTTP 认证
  • 离线模式
  • 调试追踪(trace 录制)

举个真实例子:社区用户 @marchattonhere 做了一个 Tesco 自动购物的技能——每周菜单发给 AI,AI 打开浏览器、登录 Tesco、添加商品到购物车、选择配送时间、确认订单。全程无需 API,就是操控浏览器。

4. 系统命令执行(Exec Tool)

让 AI 能执行系统命令,这是另一个"核武器"级别的能力。

执行环境

  • sandbox(默认):Docker 沙盒,隔离安全
  • gateway:Gateway 所在主机
  • node:远程设备节点(如 macOS/iOS/Android)

安全策略

  • deny:拒绝所有命令
  • allowlist:白名单模式
  • full:完全开放

配置参数

代码语言:javascript
复制
{
  "tools": {
    "exec": {
      "host": "sandbox",
      "security": "allowlist",
      "ask": "on-miss",
      "timeout": 1800,
      "pathPrepend": ["~/bin", "/opt/oss/bin"]
    }
  }
}

默认情况下是沙盒模式 + deny,你需要显式开放权限。这个设计很合理——强大的能力需要谨慎使用。

进程控制

代码语言:javascript
复制
// 启动长时间运行的命令
{"tool":"exec","command":"npm run build","yieldMs":1000}

// 轮询进程状态
{"tool":"process","action":"poll","sessionId":"<id>"}

// 发送按键
{"tool":"process","action":"send-keys","sessionId":"<id>","keys":["Enter"]}
{"tool":"process","action":"send-keys","sessionId":"<id>","keys":["C-c"]}
5. 技能系统(Skills)

Clawdbot 有完整的技能扩展体系,类似于 Claude Code 的 SKILL.md 规范:

技能层级

  1. Bundled skills:安装包自带的技能
  2. Managed/local skills~/.clawdbot/skills 目录
  3. Workspace skills:当前工作区的 skills 目录

技能格式(SKILL.md)

代码语言:javascript
复制
---
name: nano-banana-pro
description: Generate or edit images via Gemini 3 Pro Image
metadata: {"clawdbot":{"requires":{"bins":["uv"],"env":["GEMINI_API_KEY"]},"primaryEnv":"GEMINI_API_KEY"}}
---

使用说明...

ClawdHub 技能市场

有一个专门的技能市场 clawdhub.com,可以安装社区技能:

代码语言:javascript
复制
# 安装技能
clawdhub install <skill-slug>

# 更新所有技能
clawdhub update --all

# 同步技能
clawdhub sync --all

技能门控(Gating)

  • requires.bins:需要某些命令行工具存在
  • requires.env:需要某些环境变量
  • requires.config:需要某些配置项
  • os:限定操作系统(darwin/linux/win32)

自动安装器:技能可以声明安装方式(brew/node/go/uv/download),Gateway 会自动帮你安装依赖。

6. 生产力集成

Clawdbot 内置了大量生产力工具的集成:

类别

集成

笔记

Apple Notes、Obsidian、Bear Notes、Notion

任务管理

Apple Reminders、Things 3、Todoist、Trello

代码

GitHub(Issues、PRs)

音乐

Spotify、Sonos

智能家居

Philips Hue、Home Assistant、8Sleep 智能床垫

自动化

Cron 定时任务、Webhooks、Gmail Pub/Sub

媒体

AI 图像生成、GIF 搜索、屏幕截图、摄像头

密码管理

1Password

天气

天气查询

7. 语音能力
  • Voice Wake:语音唤醒(类似"Hey Siri")
  • Talk Mode:持续对话模式
  • 配合 ElevenLabs 可以让 AI "开口说话"

支持 macOS、iOS、Android 三端。

8. 可视化工作区(Canvas + A2UI)

类似于 Claude Artifacts 的可视化能力:

  • Agent 可以推送可视化内容到 Canvas
  • 支持实时交互
  • macOS/iOS/Android 都有原生支持

安装部署

一键安装

macOS / Linux:

代码语言:javascript
复制
curl -fsSL https://clawd.bot/install.sh | bash

Windows(PowerShell):

代码语言:javascript
复制
iwr -useb https://clawd.bot/install.ps1 | iex

npm / pnpm:

代码语言:javascript
复制
npm install -g clawdbot@latest
# 或者
pnpm add -g clawdbot@latest
运行向导

安装完成后,运行向导程序:

代码语言:javascript
复制
clawdbot onboard --install-daemon

向导会引导你完成:

  1. 选择本地还是远程 Gateway
  2. 配置 AI 模型(OAuth 登录 Claude/OpenAI,或使用 API Key)
  3. 绑定聊天渠道(WhatsApp 扫码、Telegram 填 Token 等)
  4. 安装后台服务(launchd/systemd)
前置条件
  • Node.js >= 22
  • 推荐配置 Brave Search API 用于网络搜索
  • Windows 用户需要 WSL2
启动 Gateway
代码语言:javascript
复制
# 查看 Gateway 状态
clawdbot gateway status

# 启动 Gateway(前台运行,带详细日志)
clawdbot gateway --port 18789 --verbose

# 健康检查
clawdbot health
clawdbot status --all
配对聊天渠道

WhatsApp(扫码):

代码语言:javascript
复制
clawdbot channels login

扫描终端显示的二维码即可。

Telegram:~/.clawdbot/clawdbot.json 中配置:

代码语言:javascript
复制
{
  "channels": {
    "telegram": {
      "botToken": "123456:ABCDEF"
    }
  }
}

Discord:

代码语言:javascript
复制
{
  "channels": {
    "discord": {
      "token": "1234abcd"
    }
  }
}
从源码构建
代码语言:javascript
复制
git clone https://github.com/clawdbot/clawdbot.git
cd clawdbot
pnpm install
pnpm ui:build  # 构建 UI
pnpm build     # 构建主程序
clawdbot onboard --install-daemon

# 开发模式(自动重载)
pnpm gateway:watch

安全模型

Clawdbot 在安全设计上很用心:

DM 配对机制

默认情况下,陌生人给你发消息时,Clawdbot 会返回一个配对码,而不是直接处理消息:

代码语言:javascript
复制
# 查看待审批的配对请求
clawdbot pairing list whatsapp

# 批准配对
clawdbot pairing approve whatsapp <code>

如果你想开放对所有人,需要显式设置 dmPolicy="open" 并在 allowlist 里加入 "*"

沙盒隔离
  • 主会话:默认在主机上运行,完全权限
  • 非主会话(群组/频道):可以配置 agents.defaults.sandbox.mode: "non-main",让这些会话在 Docker 沙盒里运行

沙盒默认白名单:bash, process, read, write, edit, sessions_*沙盒默认黑名单:browser, canvas, nodes, cron, discord, gateway

工具审批

对于危险操作,可以配置 ask: "always" 要求每次都审批。

社区案例

Clawdbot 社区非常活跃,这里列举一些真实案例:

🛒 Tesco 自动购物(@marchattonhere)

每周菜单 → 常购商品 → 选配送时间 → 确认订单。全程浏览器控制,没有调任何 API。

🍷 酒窖管理技能(@prades_maxime)

让 AI 根据 962 瓶酒的 CSV 文件,几分钟内写好了一个本地酒窖管理技能。

📱 iOS App 开发(@coard)

完全通过 Telegram 聊天,开发了一个带地图和录音功能的 iOS App,并发布到 TestFlight。从头到尾没打开电脑。

💻 沙发开发模式(@davekiss)

躺沙发看 Netflix 的同时,通过 Telegram 指挥 AI 把整个个人网站从 Notion 迁移到 Astro,18 篇文章,DNS 切换到 Cloudflare。

🖨️ Bambu 3D 打印机控制(@tobiasbischoff)

状态监控、任务管理、摄像头查看、AMS 耗材管理、校准——全部通过聊天完成。

💍 Oura 健康助手(@AS)

对接 Oura 智能戒指数据,结合日历和健身计划,做个人健康建议。

🧹 Roborock 扫地机器人控制

自然语言控制扫地机器人。

🏠 Home Assistant 集成

自然语言控制智能家居设备。

🌤️ 晨间简报(@buddyhadry)

每天早上自动生成一张"场景图",包含天气、待办事项、日期、喜欢的语录。

🔍 PR 代码审核 → Telegram(@bangnokia)

代码 PR 提交后,AI 自动审核 diff,在 Telegram 里汇报审核意见,包括是否可以合并、需要先修复哪些问题。

🗣️ 中文学习引擎(@joshp123)

发音反馈、学习流程设计,通过 Clawdbot 语音能力实现。

👥 Kev's Dream Team(14+ Agents)

一个 Gateway 下运行 14+ 个 Agent,Opus 4.5 作为编排者,Codex 作为执行者,完整的多 Agent 协作架构。

聊天命令

在 WhatsApp/Telegram/Slack/Teams 里可以直接发送这些命令:

命令

作用

/status

查看会话状态(模型、Token 用量、费用)

/new 或 /reset

重置会话

/compact

压缩上下文(生成摘要)

/think <level>

设置思考级别(off/minimal/low/medium/high/xhigh)

/verbose on/off

详细模式开关

/usage off/tokens/full

每次回复显示用量

/activation mention/always

群组激活方式(@提及 或 始终响应)

/restart

重启 Gateway(仅群主)

远程访问

Clawdbot 可以运行在 Linux 服务器上,客户端(macOS App、CLI、WebChat)通过 Tailscale 或 SSH 隧道连接:

Tailscale 模式

  • serve:tailnet 内部 HTTPS(使用 Tailscale 身份认证)
  • funnel:公网 HTTPS(需要密码认证)

配置方法:

代码语言:javascript
复制
{
  "gateway": {
    "tailscale": {
      "mode": "serve"  // 或 "funnel"
    }
  }
}

这种架构的好处:

  • Gateway 跑在服务器上,24/7 在线
  • exec 命令在服务器执行
  • 设备相关的操作(摄像头、通知)通过 node 发送到本地设备执行

配置文件

核心配置文件:~/.clawdbot/clawdbot.json

最小配置:

代码语言:javascript
复制
{
  "agent": {
    "model": "anthropic/claude-opus-4-5"
  }
}

完整配置示例:

代码语言:javascript
复制
{
  "agent": {
    "model": "anthropic/claude-opus-4-5"
  },
"browser": {
    "enabled": true,
    "controlUrl": "http://127.0.0.1:18791",
    "defaultProfile": "clawd",
    "color": "#FF4500"
  },
"tools": {
    "exec": {
      "host": "sandbox",
      "security": "allowlist"
    }
  },
"channels": {
    "telegram": {
      "botToken": "YOUR_TOKEN"
    },
    "whatsapp": {
      "allowFrom": ["+1234567890"]
    }
  },
"skills": {
    "entries": {
      "nano-banana-pro": {
        "enabled": true,
        "apiKey": "YOUR_GEMINI_KEY"
      }
    }
  }
}

工作区目录结构:

代码语言:javascript
复制
~/clawd/              # 工作区根目录
├── AGENTS.md         # Agent 提示词
├── SOUL.md           # 人格定义
├── TOOLS.md          # 工具描述
└── skills/           # 本地技能
    └── my-skill/
        └── SKILL.md

我的实测体验

装完整套流程大概 10 分钟。向导引导做得很好,新手也能跟着走下来。

配置 WhatsApp 的过程

  1. 运行 clawdbot channels login
  2. 终端弹出二维码
  3. 手机 WhatsApp 扫码
  4. 完成!

然后给自己发条消息,AI 就响应了。体验非常流畅,延迟可接受。

优点汇总

真正本地优先:数据不上服务器,隐私有保障

多渠道接入是杀手级特性:不换 App 太爽了

浏览器控制能力强大:真 RPA,不是调 API

技能系统设计优雅:易扩展,社区活跃

安全设计用心:配对机制、沙盒隔离、权限审批

开源:MIT 协议,可自己魔改

社区活跃:Discord 里每天都有人分享新技能

需要注意的

⚠️ 有一定技术门槛,不是"小白"工具

⚠️ 最佳体验需要 Claude Pro/Max 订阅(40/月)

⚠️ Windows 用户需要 WSL2

⚠️ 功能太多,配置项也多,有学习曲线

⚠️ 某些渠道(如 iMessage)仅限 macOS

与同类产品对比

特性

Clawdbot

Siri

Google Assistant

Alexa

开源

本地运行

部分

多渠道接入

14+

浏览器控制

系统命令执行

有限

自定义技能

快捷指令

Actions

Skills

多模型支持

结论很明显:Clawdbot 是目前开源领域功能最完整的个人 AI 助手实现。

总结

Clawdbot 代表了个人 AI 助手的一个重要方向:本地优先、多渠道接入、深度系统集成、开放可扩展

它不是又一个聊天机器人,而是一个可以真正"干活"的 AI Agent 框架:

  • 能控浏览器(真 RPA)
  • 能跑脚本(沙盒隔离)
  • 能对接十几种聊天平台
  • 能扩展技能
  • 而且数据都在你自己手里

如果你是技术人员,想要一个可深度定制的 AI 助手,Clawdbot 非常值得一试

如果你只是想体验一下个人 AI 助手的威力,安装门槛也没那么高——跟着官方向导走就行。

🔗 相关链接:

  • 官网:https://clawd.bot/
  • GitHub:https://github.com/clawdbot/clawdbot
  • 文档:https://docs.clawd.bot/
  • 技能市场:https://clawdhub.com
  • Discord:https://discord.gg/clawd

作者 Peter Steinberger(@steipete)说这是为他的虚拟龙虾助手 Clawd 构建的。这只龙虾,可能要统治世界了。🦞

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 核心能力
    • 1. 全渠道接入(14+ 聊天平台)
    • 2. 多模型支持(Anthropic、OpenAI、DeepSeek...)
    • 3. 浏览器控制(Browser Tool)
    • 4. 系统命令执行(Exec Tool)
    • 5. 技能系统(Skills)
    • 6. 生产力集成
    • 7. 语音能力
    • 8. 可视化工作区(Canvas + A2UI)
  • 安装部署
    • 一键安装
    • 运行向导
    • 前置条件
    • 启动 Gateway
    • 配对聊天渠道
    • 从源码构建
  • 安全模型
    • DM 配对机制
    • 沙盒隔离
    • 工具审批
  • 社区案例
    • 🛒 Tesco 自动购物(@marchattonhere)
    • 🍷 酒窖管理技能(@prades_maxime)
    • 📱 iOS App 开发(@coard)
    • 💻 沙发开发模式(@davekiss)
    • 🖨️ Bambu 3D 打印机控制(@tobiasbischoff)
    • 💍 Oura 健康助手(@AS)
    • 🧹 Roborock 扫地机器人控制
    • 🏠 Home Assistant 集成
    • 🌤️ 晨间简报(@buddyhadry)
    • 🔍 PR 代码审核 → Telegram(@bangnokia)
    • 🗣️ 中文学习引擎(@joshp123)
    • 👥 Kev's Dream Team(14+ Agents)
  • 聊天命令
  • 远程访问
  • 配置文件
  • 我的实测体验
  • 与同类产品对比
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档