功能概述
TWeTalk 是专为智能硬件打造的 AI 对话方案,聚焦多模态智能体与实时音视频通信两大核心。云端支持语音对话及多模态视觉推理交互,可闲聊、查询天气、问询各类信息等。语音识别融合情绪识别,预置高拟人度 TTS 音色并支持音色复刻。TWeTalk 亮点功能包括整合 Function Call 各类技能,可通过物模型配置实现硬件控制,深度整合端云协同与场景化 AI,集成腾讯系资源,可支持设备与微信音频呼叫(TWeCall)。
TWeTalk 也可以与主流嵌入式芯片及模组厂商合作,可以在端侧集成降噪、唤醒等技术。开发者可在控制台进行配置,该方案已应用于 AI 陪伴玩具、机器人、智能穿戴(手表、眼镜)、耳机同传、智能点餐、导览、AI 面试等 AIoT 场景,实现人与智能硬件的自然“对话”。

功能特性
功能类别 | 功能描述 |
AI 语音对话 | 语音智能体(Voice Agent):支持智能硬件设备的语音交互。 |
| 语音识别(ASR):支持云端语音识别。国内主要支持中文、中英文识别。 可使用腾讯云 ASR,或者配置三方服务(会产生服务调用费用,由接入方自己承担)。 |
| 语音合成(TTS):集成自有腾讯 TTS,也支持客户自行调用 Minimax、ElevenLabs 等语音合成服务 (会产生服务调用费用,由接入方自己承担)。 |
| 支持对话中的语音打断:用户可通过语音来打断智能体说话。 |
| 情绪识别:能够从声学角度识别并解析情绪状态。 |
| 标准 VAD:区分语音与静默部分,以判断话轮切换。 |
| 语义 VAD:根据表达语义判断用户是否结束说话,通过标准 VAD + 语义完整性来决定说话的时机,避免误打断用户说话的情况。 |
音视频通信 | AI 语音对话支持 WebSocket、RTC 连接,根据实际应用所需情况自行选择。 |
| 购买 TWeCall 后,可支持设备和微信小程序的双向通话。 |
| Opus 编解码:使用 Opus 编解码减少带宽使用,保证传输时延和音频质量。 |
| 云端 AI 降噪:服务端将对音频进行 AI 降噪处理,适用于设备端未运行端上 AI 降噪功能的场景。 |
多模态理解 | 支持在实时对话中针对输入的图片进行理解和对话。可主动传图,或根据输入意图判定结果被动传图。 |
| 支持一次性短连接请求,适用于按需的、定时的、固定的图片推理任务。返回图片理解结果。 |
设备集成 | 嵌入式设备兼容:支持各种嵌入式硬件设备,要求至少有100KB的 RAM 和200KB的 Flash 空间。 |
| IoT 平台集成:与腾讯云物联网平台集成,支持 Wi-Fi 和蓝牙设备连接。 |
| 设备固件 OTA:支持设备固件的 OTA(空中升级)。 |
| 设备语音控制:支持通过语音控制设备属性(例如:调节音量、查询温度等)。 |
高级功能 | 语音助手技能:集成提醒设置、查询天气、音乐点播、设备控制等功能。 |
| 支持第三方服务商:用户可以根据配置 API 自定义 ASR、LLM、TTS 及会话配置信息。 支持产品维度和设备维度配置管理。 |
| 函数调用集成:集成 API 调用和知识库服务,实现更复杂的 AI 对话。 |
| 可定制的响应:支持自定义开场白、静默检测回复、特定格式回复。 |
| 长期记忆:稳定记录聊天事件、用户画像,精准检索对话历史,实现跨会话的记忆延续。 可基于用户画像与行为历史,在对话中为用户提供真正个性化、有温度的交互支持。 |
设备 SDK 集成 | 实时音频和事件回调:提供音频接收和事件处理回调,如机器人开始/停止讲话、转录、呼叫等。 |
控制台 | 在控制台进行产品激活码管理、设备量产和管理、智能体配置(人设 prompt、音色选择、模型配置、开场白配置)等。 |
支持芯片列表
芯片平台 | 网络 | 芯片型号 | 操作系统 |
乐鑫 | Wi-Fi/BLE | ESP32 & ESP32 S3/P4/C3/C6/S2 | RTOS |
归芯 | cat.1 | GX 318/308 | RTOS |
移芯 | cat.1 | EC718_S /718P_M/618/616 | RTOS |
博通 | Wi-Fi/BLE | BK7258 | RTOS |
杰理 | Wi-Fi/BLE | AC7911/AC792 | RTOS |
瑞芯微 | Wi-Fi/网口 | RV1106/RK3588 | Linux |
ARM64 | Wi-Fi/网口 | 英伟达 orin NX | Linux |
计费说明
音视频激活码:是设备接入智能语音服务的凭证。
扩展资源:包含大模型推理 Tokens、ASR 及 TTS 服务等云服务资源。当前扩展资源不额外收取费用,但我们提供三种不同规格的服务,以满足不同的使用场景:
规格 | 功能区分 |
TWeTalk 基础版 | 通过 ASR + LLM + TTS 级联方案支持 IoT 设备的语音交互,模型均为腾讯云自研,同时支持使用外部服务。 TTS 不支持超自然大模型版本。 |
TWeTalk 高级版 | 通过 ASR + LLM + TTS 级联方案支持 IoT 设备的语音交互,模型均为腾讯云自研,同时支持使用外部服务。 TTS 支持超自然大模型版本,可使用长记忆能力。 |
TWeTalk 多模态 | 可支持视觉理解,实现拍照问和 AI 视频通话,TTS 支持超自然音色,可使用长记忆能力。 |