实时音视频实现 AI 对话

功能概述
实时音视频 AI 对话解决方案包括内置的语音转文本（Speech-To-Text，STT）和智能打断，同时提供通道服务，支持客户灵活接入指定的 AI 模型（Large Language Model，LLM）和文本转语音（Text To Speech，TTS）模型服务，以创建自然流畅的 AI 对话效果。
﻿
﻿
﻿
应用场景
应用场景
说明
在线教育
在线教育场景中，实时互动和反馈是提升学习效果的关键。依托对话式AI，平台可以创建虚拟教学助手，在课内课外提供全时的智能教学辅助。课内，学生可以在老师讲课的同时，随时向虚拟教学助手提问，获得补充讲解，更充分地理解学习要点。课外，虚拟教学助手可以根据不同学生的进度和需求，提供个性化的辅导建议和学习资源，并针对学生的作业、提问提供响应式反馈，以更自然亲和的方式陪伴学生。相比大段的文字解析，对话式的讲解可以更有效地引导学生，便于学生理解。
社交娱乐
在社交娱乐场景中，结合实时互动能力的对话式AI能够精准理解用户意图并和用户进行语音互动，为用户带来更真实和个性化的社交娱乐体验。相比文字，对话式AI提供的虚拟陪伴服务能够通过语音与用户进行自然沟通，提供更为丰富且真实的情感价值。在线剧本杀、狼人杀等互动游戏中，对话式AI也可以扮演主持或NPC角色，与玩家进行动态对话并推动情节发展，让玩家享受沉浸式的游戏体验。
呼叫中心
在线客服、AI销售顾问、智能外呼等场景都可以通过对话式AI来提供更丰富、实时的客户服务体验，这样不仅可以有效降低运营成本，还能够显著提升服务效率，全天候为客户提供更快捷的服务支持。
高效办公
通过对话式AI，用户可以使用语音，命令和控制应用程序，减少手动输入，使日常工作变得更轻松、高效。相比文字交互，对话式交互可以拓展各类办公助手的使用场景，无需在终端设备旁也能通过语音快速交流，完成工作。
医疗辅助
依托对话式AI，远程诊断、医疗咨询等场景中，患者可以通过语音咨询提问，获取实时且个性化的建议，更接近真实场景问诊体验，这样可以消除用户的不信任感，大幅减轻患者焦虑。
功能优势
优势
说明
超低延迟的 AI 对话
在实时人工智能交互场景中，LLM及时接收和处理用户的音视频数据至关重要。腾讯RTC的超低延迟通信确保了全球范围内音视频传输的端到端延迟低于300ms，同时将对话延迟保持在1000ms以下，媲美人类对话反应速度，让用户享受到流畅自然的互动体验，提升客户满意度。
接入简单，高效上线
集成时间最快仅需 1-2 天，提供完整的SDK和API文档，简化开发流程，比传统方案节省1个月以上的开发工作，助力企业快速实现产品智能化升级，抢占市场先机。
内置精准的语音识别
内置先进的ASR技术支持多种语言，包括英语、西班牙语、日语、韩语、中文以及23种方言和130种国际语言。它还为最多四种指定语言提供模糊识别（不包括方言），确保高精度和适应性，为全球化业务提供强大的多语种AI对话支持。
服务模型集成灵活性
与各种LLM和TTS模型无缝集成：我们提供了集成通道，允许用户轻松连接第三方LLM和TTS模型。用户只需要配置他们的LLM和TTS服务的账户凭证，就可以将它们无缝集成到我们的解决方案中。这促进了个性化和复杂的AI响应，增强了整体对话体验。
跨端兼容性
支持多个平台，包括iOS、Android、Windows、macOS、Web、Flutter、Electron和React Native等，兼容超过20,000种设备模型。
接入说明
第一步：接收 AI 对话识别结果
方式一：通过客户端 SDK 接收文字消息
通过 TRTC SDK 接收自定义消息功能，在客户端上监听回调来接收实时的字幕与转录的数据。
客户端回调消息格式如下，以 Web 端为例：
trtc.on(TRTC.EVENT.CUSTOM_MESSAGE, event => { // receive custom message
   // event.userId: 对话机器人的userId
   // event.cmdId: 消息Id, 转录和字幕固定为1
   // event.seq: 消息的序号
   // event.data: ArrayBuffer 类型， 转录或字幕的内容，见下方data字段说明
   const data = new TextDecoder().decode(event.data)
   // data 字段说明如下 
   console.log(`received custom msg from ${event.userId}, message: ${ data }`)
})
data 字段说明
字段名
类型
含义
type
String
实时字幕: subtitle
转录：transcription
userid
String
识别用户的userId
text
String
识别出的文本。 Unicode 编码
start_time
String
消息产生的时间 任务启动后的绝对时间
end_time
String
消息结束的时间 任务启动后的绝对时间
{
	"type": "subtitle", 
	"userid": "xxx", 
	"text": "xxx",
	"start_time": "00:00:02",
	"end_time": "00:00:05",
    "translation_text": "xxx"
}
方式二：通过服务端回调接收
AI 转录服务同时提供了服务端事件回调，便于您的服务接收实时对话的消息，查看详细回调事件。
第二步：发起 AI 对话
TRTC 提供以下云 API 用于发起和管理对话任务，具体如下：
开始 AI 对话任务：StartAIConversation﻿
查询 AI 对话任务：DescribeAIConversation﻿
停止 AI 对话任务 ： StopAIConversation﻿
注意：
AI 对话单个 SDKAppId 任务并发数限制100路，如需提升提交工单处理。
发起 AI 对话任务，需要在接口指定配置第三方 LLM 和 STT 参数，相关说明如下：
说明：
请先前往下述已支持的服务商获取大语言模型（LLM）和 文本转语音（TTS）相关鉴权参数。
配置大语言模型（LLM）服务
OpenAi 配置参数如下：
﻿
  "LLMConfig": {
          "LLMType": "openai",  
          "Model":"gpt-4",
          "APIKey":"api-key"，
          "APIBaseUrl":"https://api.openai.com",
          "Streaming": true,
          "SystemPrompt": "你是一个个人助手",
          "Timeout": 3.0    
  }
说明：
支持 OpenAi 协议规模的 LLM 服务商均支持，更多 LLM 服务商持续接入中，如有指定服务商接入需求可 提交工单。
MiniMax 配置参数如下：
﻿
"LLMConfig":{
        "APIKey": "eyJhbGcixxxx",
        "LLMType": "minimax",
        "Model": "abab6.5s-chat",
        "Streaming": true,
        "SystemPrompt": "你是一个个人助手",
        "APIBaseUrl": "https://api.minimax.chat/v1/text/chatcompletion_v2"
 }
此外我们会在 http header 中增加多个参数来辅助客户支持更复杂的逻辑：
X-Task-Id: <task_id_value>   // 此任务的 id，
X-Rquest-Id: <request_id>   // 此次请求的 id， uuid， 重试的时候会携带相同的 requestId
X-Sdk-App-Id： SdkAppId
X-User-Id：UserId
X-Room-Id：RoomId  
X-Room-Id-Type: "0" // "0"表示数字房间号 "1"表示字符串房间号
配置文本转语音（TTS）服务
目前支持腾讯云 TTS 和 MiniMax TTS，更多 TTS 服务商持续接入中，如有指定服务商接入需求可提交工单。
Tencent TTS 配置参数如下：
{ 
       "TTSType": "tencent", // String TTS类型, 目前支持"tencent" 和 “minixmax”， 其他的厂商支持中
       "AppId": "您的应用ID", // String 必填
       "SecretId": "您的密钥ID", // String 必填
       "SecretKey":  "您的密钥Key", // String 必填
       "VoiceType": 101001, // Integer  必填，音色 ID，包括标准音色与精品音色，精品音色拟真度更高，价格不同于标准音色，请参见语音合成计费概述。完整的音色 ID 列表请参见语音合成音色列表。
       "Speed": 1.25, // Integer 非必填，语速，范围：[-2，6]，分别对应不同语速： -2: 代表0.6倍 -1: 代表0.8倍 0: 代表1.0倍（默认） 1: 代表1.2倍 2: 代表1.5倍  6: 代表2.5倍  如果需要更细化的语速，可以保留小数点后 2 位，例如0.5/1.25/2.81等。 参数值与实际语速转换，可参考 语速转换
       "Volume": 5, // Integer 非必填，音量大小，范围：[0，10]，分别对应11个等级的音量，默认值为0，代表正常音量。
       "PrimaryLanguage": 1, // Integer 可选 主要语言 1-中文（默认） 2-英文 3-日文
       "FastVoiceType": "xxxx"   //  可选参数， 快速声音复刻的参数 
  }
MiniMax TTS 配置参数如下：
{
      "TTSType": "minimax", // String TTS类型, 固定为"minimax" 
      "Model": "speech-01-turbo-240228", // String 使用的模型，可选[speech-01-turbo, speech-01-turbo-240228, speech-01-240228]
      "ApiUrl": "https://api.minimax.chat/v1/t2a_v2", //
      "GroupId": "181000000000000", // String，需要在MiniMax管理后台获取：https://platform.minimaxi.com/user-center/basic-information
      "ApiKey": "eyxxxx", // String，需要在MiniMax管理后台获取：https://platform.minimaxi.com/user-center/basic-information/interface-key
      "VoiceType":"female-tianmei-jingpin", // String，voice选择可以参考MiniMax文档
      "Speed": 1.2 // Numer，范围[0.5,2]，默认值为1.0
}
服务端接口说明
接口并发限制
AI对话接口的调用频率限制为20qps。
单个接口超时时间为5秒。
单个应用下默认并发录制支持200路，超过并发限制的任务会失败。
说明：
请重点关注响应结果中的参数—任务 ID（TaskId）；这个参数是本次对话任务的唯一标识，您需要保存下这个任务 ID 作为后续针对这个对话任务接口操作的输入参数。
常见问题
每个环节的延迟是多少？
RTC 通信200ms
ASR 处理延迟200 - 400ms
LLM大模型首 token 延迟300 - 600ms
TTS 首 chunk 延迟400 - 600ms

应用场景	说明
在线教育	在线教育场景中，实时互动和反馈是提升学习效果的关键。依托对话式AI，平台可以创建虚拟教学助手，在课内课外提供全时的智能教学辅助。课内，学生可以在老师讲课的同时，随时向虚拟教学助手提问，获得补充讲解，更充分地理解学习要点。课外，虚拟教学助手可以根据不同学生的进度和需求，提供个性化的辅导建议和学习资源，并针对学生的作业、提问提供响应式反馈，以更自然亲和的方式陪伴学生。相比大段的文字解析，对话式的讲解可以更有效地引导学生，便于学生理解。
社交娱乐	在社交娱乐场景中，结合实时互动能力的对话式AI能够精准理解用户意图并和用户进行语音互动，为用户带来更真实和个性化的社交娱乐体验。相比文字，对话式AI提供的虚拟陪伴服务能够通过语音与用户进行自然沟通，提供更为丰富且真实的情感价值。在线剧本杀、狼人杀等互动游戏中，对话式AI也可以扮演主持或NPC角色，与玩家进行动态对话并推动情节发展，让玩家享受沉浸式的游戏体验。
呼叫中心	在线客服、AI销售顾问、智能外呼等场景都可以通过对话式AI来提供更丰富、实时的客户服务体验，这样不仅可以有效降低运营成本，还能够显著提升服务效率，全天候为客户提供更快捷的服务支持。
高效办公	通过对话式AI，用户可以使用语音，命令和控制应用程序，减少手动输入，使日常工作变得更轻松、高效。相比文字交互，对话式交互可以拓展各类办公助手的使用场景，无需在终端设备旁也能通过语音快速交流，完成工作。
医疗辅助	依托对话式AI，远程诊断、医疗咨询等场景中，患者可以通过语音咨询提问，获取实时且个性化的建议，更接近真实场景问诊体验，这样可以消除用户的不信任感，大幅减轻患者焦虑。

优势	说明
超低延迟的 AI 对话	在实时人工智能交互场景中，LLM及时接收和处理用户的音视频数据至关重要。腾讯RTC的超低延迟通信确保了全球范围内音视频传输的端到端延迟低于300ms，同时将对话延迟保持在1000ms以下，媲美人类对话反应速度，让用户享受到流畅自然的互动体验，提升客户满意度。
接入简单，高效上线	集成时间最快仅需 1-2 天，提供完整的SDK和API文档，简化开发流程，比传统方案节省1个月以上的开发工作，助力企业快速实现产品智能化升级，抢占市场先机。
内置精准的语音识别	内置先进的ASR技术支持多种语言，包括英语、西班牙语、日语、韩语、中文以及23种方言和130种国际语言。它还为最多四种指定语言提供模糊识别（不包括方言），确保高精度和适应性，为全球化业务提供强大的多语种AI对话支持。
服务模型集成灵活性	与各种LLM和TTS模型无缝集成：我们提供了集成通道，允许用户轻松连接第三方LLM和TTS模型。用户只需要配置他们的LLM和TTS服务的账户凭证，就可以将它们无缝集成到我们的解决方案中。这促进了个性化和复杂的AI响应，增强了整体对话体验。
跨端兼容性	支持多个平台，包括iOS、Android、Windows、macOS、Web、Flutter、Electron和React Native等，兼容超过20,000种设备模型。

字段名	类型	含义
type	String	实时字幕: subtitle 转录：transcription
userid	String	识别用户的userId
text	String	识别出的文本。 Unicode 编码
start_time	String	消息产生的时间任务启动后的绝对时间
end_time	String	消息结束的时间任务启动后的绝对时间

实现 AI 对话

本页目录：

功能概述

应用场景

功能优势

接入说明

第一步：接收 AI 对话识别结果

方式一：通过客户端 SDK 接收文字消息

方式二：通过服务端回调接收

第二步：发起 AI 对话

配置大语言模型（LLM）服务

配置文本转语音（TTS）服务

服务端接口说明

接口并发限制

常见问题

每个环节的延迟是多少？