功能介绍

最近更新时间:2026-03-27 11:14:52

我的收藏

功能概述

TWeTalk 是专为智能硬件打造的 AI 对话方案,聚焦多模态智能体与实时音视频通信两大核心。云端支持语音对话及多模态视觉推理交互,可闲聊、查询天气、问询各类信息等。语音识别融合情绪识别,预置高拟人度 TTS 音色并支持音色复刻。TWeTalk 亮点功能包括整合 Function Call 各类技能,可通过物模型配置实现硬件控制,深度整合端云协同与场景化 AI,集成腾讯系资源,可支持设备与微信音频呼叫(TWeCall)。
TWeTalk 也可以与主流嵌入式芯片及模组厂商合作,可以在端侧集成降噪、唤醒等技术。开发者可在控制台进行配置,该方案已应用于 AI 陪伴玩具、机器人、智能穿戴(手表、眼镜)、耳机同传、智能点餐、导览、AI 面试等 AIoT 场景,实现人与智能硬件的自然“对话”。


功能特性

功能类别
功能描述
AI 语音对话
语音智能体(Voice Agent):支持智能硬件设备的语音交互。
语音识别(ASR):支持云端语音识别。国内主要支持中文、中英文识别。
可使用腾讯云 ASR,或者配置三方服务(会产生服务调用费用,由接入方自己承担)。
语音合成(TTS):集成自有腾讯 TTS,也支持客户自行调用 Minimax、ElevenLabs 等语音合成服务
(会产生服务调用费用,由接入方自己承担)。
自有集成腾讯 TTS 分为基础和高级两种版本,均可支持中文、中英混合成。自有 TTS 音色体验见 语音合成
支持对话中的语音打断:用户可通过语音来打断智能体说话。
情绪识别:能够从声学角度识别并解析情绪状态。
标准 VAD:区分语音与静默部分,以判断话轮切换。
语义 VAD:根据表达语义判断用户是否结束说话,通过标准 VAD + 语义完整性来决定说话的时机,避免误打断用户说话的情况。
音视频通信
AI 语音对话支持 WebSocket、RTC 连接,根据实际应用所需情况自行选择。
购买 TWeCall 后,可支持设备和微信小程序的双向通话。
Opus 编解码:使用 Opus 编解码减少带宽使用,保证传输时延和音频质量。
云端 AI 降噪:服务端将对音频进行 AI 降噪处理,适用于设备端未运行端上 AI 降噪功能的场景。
多模态理解
支持在实时对话中针对输入的图片进行理解和对话。可主动传图,或根据输入意图判定结果被动传图。
支持一次性短连接请求,适用于按需的、定时的、固定的图片推理任务。返回图片理解结果。
设备集成
嵌入式设备兼容:支持各种嵌入式硬件设备,要求至少有100KB的 RAM 和200KB的 Flash 空间。
IoT 平台集成:与腾讯云物联网平台集成,支持 Wi-Fi 和蓝牙设备连接。
设备固件 OTA:支持设备固件的 OTA(空中升级)。
设备语音控制:支持通过语音控制设备属性(例如:调节音量、查询温度等)。
高级功能
语音助手技能:集成提醒设置、查询天气、音乐点播、设备控制等功能。
支持第三方服务商:用户可以根据配置 API 自定义 ASR、LLM、TTS 及会话配置信息。
支持产品维度和设备维度配置管理。
函数调用集成:集成 API 调用和知识库服务,实现更复杂的 AI 对话。
可定制的响应:支持自定义开场白、静默检测回复、特定格式回复。
长期记忆:稳定记录聊天事件、用户画像,精准检索对话历史,实现跨会话的记忆延续。
可基于用户画像与行为历史,在对话中为用户提供真正个性化、有温度的交互支持。
设备 SDK 集成
实时音频和事件回调:提供音频接收和事件处理回调,如机器人开始/停止讲话、转录、呼叫等。
控制台
在控制台进行产品激活码管理、设备量产和管理、智能体配置(人设 prompt、音色选择、模型配置、开场白配置)等。

支持芯片列表

芯片平台
网络
芯片型号
操作系统
乐鑫
Wi-Fi/BLE
ESP32 & ESP32 S3/P4/C3/C6/S2
RTOS
归芯
cat.1
GX 318/308
RTOS
移芯
cat.1
EC718_S /718P_M/618/616
RTOS
博通
Wi-Fi/BLE
BK7258
RTOS
杰理
Wi-Fi/BLE
AC7911/AC792
RTOS
瑞芯微
Wi-Fi/网口
RV1106/RK3588
Linux
ARM64
Wi-Fi/网口
英伟达 orin NX
Linux

计费说明

TWeTalk 智能语音服务采用预付费模式,费用由音视频激活码和扩展资源组成。费用详情请参见 智能语音(TWeTalk)计费说明
音视频激活码:是设备接入智能语音服务的凭证。
扩展资源:包含大模型推理 Tokens、ASR 及 TTS 服务等云服务资源。当前扩展资源不额外收取费用,但我们提供三种不同规格的服务,以满足不同的使用场景:
规格
功能区分
TWeTalk 基础版
通过 ASR + LLM + TTS 级联方案支持 IoT 设备的语音交互,模型均为腾讯云自研,同时支持使用外部服务。
TTS 不支持超自然大模型版本。
TWeTalk 高级版
通过 ASR + LLM + TTS 级联方案支持 IoT 设备的语音交互,模型均为腾讯云自研,同时支持使用外部服务。
TTS 支持超自然大模型版本,可使用长记忆能力。
TWeTalk 多模态
可支持视觉理解,实现拍照问和 AI 视频通话,TTS 支持超自然音色,可使用长记忆能力。