功能概述
实时音视频 AI 对话解决方案包括内置的语音转文本(Speech-To-Text,STT)和智能打断,同时提供通道服务,支持客户灵活接入指定的 AI 模型(Large Language Model,LLM)和文本转语音(Text To Speech,TTS)模型服务,以创建自然流畅的 AI 对话效果。


应用场景
应用场景 | 说明 |
在线教育 | 在线教育场景中,实时互动和反馈是提升学习效果的关键。依托对话式AI,平台可以创建虚拟教学助手,在课内课外提供全时的智能教学辅助。课内,学生可以在老师讲课的同时,随时向虚拟教学助手提问,获得补充讲解,更充分地理解学习要点。课外,虚拟教学助手可以根据不同学生的进度和需求,提供个性化的辅导建议和学习资源,并针对学生的作业、提问提供响应式反馈,以更自然亲和的方式陪伴学生。相比大段的文字解析,对话式的讲解可以更有效地引导学生,便于学生理解。 |
社交娱乐 | 在社交娱乐场景中,结合实时互动能力的对话式AI能够精准理解用户意图并和用户进行语音互动,为用户带来更真实和个性化的社交娱乐体验。相比文字,对话式AI提供的虚拟陪伴服务能够通过语音与用户进行自然沟通,提供更为丰富且真实的情感价值。在线剧本杀、狼人杀等互动游戏中,对话式AI也可以扮演主持或NPC角色,与玩家进行动态对话并推动情节发展,让玩家享受沉浸式的游戏体验。 |
呼叫中心 | 在线客服、AI销售顾问、智能外呼等场景都可以通过对话式AI来提供更丰富、实时的客户服务体验,这样不仅可以有效降低运营成本,还能够显著提升服务效率,全天候为客户提供更快捷的服务支持。 |
高效办公 | 通过对话式AI,用户可以使用语音,命令和控制应用程序,减少手动输入,使日常工作变得更轻松、高效。相比文字交互,对话式交互可以拓展各类办公助手的使用场景,无需在终端设备旁也能通过语音快速交流,完成工作。 |
医疗辅助 | 依托对话式AI,远程诊断、医疗咨询等场景中,患者可以通过语音咨询提问,获取实时且个性化的建议,更接近真实场景问诊体验,这样可以消除用户的不信任感,大幅减轻患者焦虑。 |
功能优势
优势 | 说明 |
超低延迟的 AI 对话 | 在实时人工智能交互场景中,LLM及时接收和处理用户的音视频数据至关重要。腾讯RTC的超低延迟通信确保了全球范围内音视频传输的端到端延迟低于300ms,同时将对话延迟保持在1000ms以下,媲美人类对话反应速度,让用户享受到流畅自然的互动体验,提升客户满意度。 |
接入简单,高效上线 | 集成时间最快仅需 1-2 天,提供完整的SDK和API文档,简化开发流程,比传统方案节省1个月以上的开发工作,助力企业快速实现产品智能化升级,抢占市场先机。 |
内置精准的语音识别 | 内置先进的ASR技术支持多种语言,包括英语、西班牙语、日语、韩语、中文以及23种方言和130种国际语言。它还为最多四种指定语言提供模糊识别(不包括方言),确保高精度和适应性,为全球化业务提供强大的多语种AI对话支持。 |
服务模型集成灵活性 | 与各种LLM和TTS模型无缝集成:我们提供了集成通道,允许用户轻松连接第三方LLM和TTS模型。用户只需要配置他们的LLM和TTS服务的账户凭证,就可以将它们无缝集成到我们的解决方案中。这促进了个性化和复杂的AI响应,增强了整体对话体验。 |
跨端兼容性 | 支持多个平台,包括iOS、Android、Windows、macOS、Web、Flutter、Electron和React Native等,兼容超过20,000种设备模型。 |
接入说明
第一步:接收 AI 对话识别结果
方式一:通过客户端 SDK 接收文字消息
客户端回调消息格式如下,以 Web 端为例:
trtc.on(TRTC.EVENT.CUSTOM_MESSAGE, event => { // receive custom message // event.userId: 对话机器人的userId // event.cmdId: 消息Id, 转录和字幕固定为1 // event.seq: 消息的序号 // event.data: ArrayBuffer 类型, 转录或字幕的内容,见下方data字段说明 const data = new TextDecoder().decode(event.data) // data 字段说明如下 console.log(`received custom msg from ${event.userId}, message: ${ data }`) })
data 字段说明
字段名 | 类型 | 含义 |
type | String | 实时字幕: subtitle 转录:transcription |
userid | String | 识别用户的userId |
text | String | 识别出的文本。 Unicode 编码 |
start_time | String | 消息产生的时间 任务启动后的绝对时间 |
end_time | String | 消息结束的时间 任务启动后的绝对时间 |
{ "type": "subtitle", "userid": "xxx", "text": "xxx", "start_time": "00:00:02", "end_time": "00:00:05", "translation_text": "xxx" }
方式二:通过服务端回调接收
第二步:发起 AI 对话
TRTC 提供以下云 API 用于发起和管理对话任务,具体如下:
注意:
AI 对话单个 SDKAppId 任务并发数限制100路,如需提升提交工单处理。
发起 AI 对话任务,需要在接口指定配置第三方 LLM 和 STT 参数,相关说明如下:
说明:
请先前往下述已支持的服务商获取大语言模型(LLM)和 文本转语音(TTS)相关鉴权参数。
配置大语言模型(LLM)服务
OpenAi 配置参数如下:
"LLMConfig": {"LLMType": "openai","Model":"gpt-4","APIKey":"api-key","APIBaseUrl":"https://api.openai.com","Streaming": true,"SystemPrompt": "你是一个个人助手","Timeout": 3.0}
说明:
MiniMax 配置参数如下:
"LLMConfig":{"APIKey": "eyJhbGcixxxx","LLMType": "minimax","Model": "abab6.5s-chat","Streaming": true,"SystemPrompt": "你是一个个人助手","APIBaseUrl": "https://api.minimax.chat/v1/text/chatcompletion_v2"}
此外我们会在 http header 中增加多个参数来辅助客户支持更复杂的逻辑:
X-Task-Id: <task_id_value> // 此任务的 id,X-Rquest-Id: <request_id> // 此次请求的 id, uuid, 重试的时候会携带相同的 requestIdX-Sdk-App-Id: SdkAppIdX-User-Id:UserIdX-Room-Id:RoomIdX-Room-Id-Type: "0" // "0"表示数字房间号 "1"表示字符串房间号
配置文本转语音(TTS)服务
Tencent TTS 配置参数如下:
{"TTSType": "tencent", // String TTS类型, 目前支持"tencent" 和 “minixmax”, 其他的厂商支持中"AppId": "您的应用ID", // String 必填"SecretId": "您的密钥ID", // String 必填"SecretKey": "您的密钥Key", // String 必填"VoiceType": 101001, // Integer 必填,音色 ID,包括标准音色与精品音色,精品音色拟真度更高,价格不同于标准音色,请参见语音合成计费概述。完整的音色 ID 列表请参见语音合成音色列表。"Speed": 1.25, // Integer 非必填,语速,范围:[-2,6],分别对应不同语速: -2: 代表0.6倍 -1: 代表0.8倍 0: 代表1.0倍(默认) 1: 代表1.2倍 2: 代表1.5倍 6: 代表2.5倍 如果需要更细化的语速,可以保留小数点后 2 位,例如0.5/1.25/2.81等。 参数值与实际语速转换,可参考 语速转换"Volume": 5, // Integer 非必填,音量大小,范围:[0,10],分别对应11个等级的音量,默认值为0,代表正常音量。"PrimaryLanguage": 1, // Integer 可选 主要语言 1-中文(默认) 2-英文 3-日文"FastVoiceType": "xxxx" // 可选参数, 快速声音复刻的参数}
MiniMax TTS 配置参数如下:
{"TTSType": "minimax", // String TTS类型, 固定为"minimax""Model": "speech-01-turbo-240228", // String 使用的模型,可选[speech-01-turbo, speech-01-turbo-240228, speech-01-240228]"ApiUrl": "https://api.minimax.chat/v1/t2a_v2", //"GroupId": "181000000000000", // String,需要在MiniMax管理后台获取:https://platform.minimaxi.com/user-center/basic-information"ApiKey": "eyxxxx", // String,需要在MiniMax管理后台获取:https://platform.minimaxi.com/user-center/basic-information/interface-key"VoiceType":"female-tianmei-jingpin", // String,voice选择可以参考MiniMax文档"Speed": 1.2 // Numer,范围[0.5,2],默认值为1.0}
服务端接口说明
接口并发限制
AI对话接口的调用频率限制为20qps。
单个接口超时时间为5秒。
单个应用下默认并发录制支持200路,超过并发限制的任务会失败。
说明:
请重点关注响应结果中的参数—任务 ID(TaskId);这个参数是本次对话任务的唯一标识,您需要保存下这个任务 ID 作为后续针对这个对话任务接口操作的输入参数。
常见问题
每个环节的延迟是多少?
RTC 通信200ms
ASR 处理延迟200 - 400ms
LLM大模型首 token 延迟300 - 600ms
TTS 首 chunk 延迟400 - 600ms