TRTC 云助手智能客服

场景介绍
智能语音客服是一种利用人工智能和语音识别技术来实现自动化交互和问题解决的客户服务系统。在 AI 大模型出现之前，智能客服主要利用自然语言处理和机器学习算法来理解客户的意图，依赖于预设的规则和知识库来进行问题解答。随着 LLM 的发展，越来越多的智能客服接入了大模型的能力，LLM 技术使智能语音客服能够更好地理解对话的上下文，从而实现连贯的对话交流。
TRTC 技术的引入，为智能语音客服带来了实时通信的能力。这意味着智能客服可以更加迅速地响应客户的需求，提供即时的反馈和解决方案。同时，TRTC 还支持多人通话、屏幕共享等功能，进一步提升了客户服务的效率和质量。
实现方案
通常实现一个完整的智能客服场景，需要涉及到多个模块：实时音视频、TRTC AI 实时对话、LLM、TTS 等。每个模块下的关键动作及功能点如下表所示：
功能
AI 智能客服场景应用
实时音视频
流式传输技术可以确保语音和视频数据的连续性和稳定性，减少延迟和抖动，提供接近于真人客服通话的高质量体验。用户可以与智能客服系统进行更自然的对话，就像是在和真人客服交谈一样，这种互动体验可以显著提升用户满意度。
TRTC AI 实时对话
腾讯 AI 实时对话解决方案，支持客户灵活接入多家 AI 大模型服务，实现 AI 与用户之间的实时音视频互动，打造符合业务场景的 AI 实时对话能力。基于腾讯 RTC 全球低延迟传输，语音对话延迟低至1s，对话效果自然拟真，接入便捷，开箱即用。
大语言模型 LLM
LLM 技术使智能语音客服能够更好地理解对话的上下文，从而实现连贯的对话交流。LLM 可以捕捉对话中的语义和语境信息，识别用户意图，并将上一轮对话的内容与当前对话关联起来。
文字转语音 TTS
支持接入第三方 TTS，通过在模型中引入个性化的训练数据或调整模型的参数，可以生成符合特定要求的语音输出。智能语音客服可以根据用户的偏好或特定场景的需求，提供不同的语音风格。
方案架构
﻿
前提条件
准备 LLM
TRTC AI 实时对话支持任何符合 OpenAI 标准协议的 LLM 模型，也支持腾讯云智能体开发平台、Dify、Coze 等 LLM 应用开发平台，具体支持的平台可参见 LLMConfig 配置说明。
使用 RAG
在智能客服的场景中，企业需要上传自有的知识集合，包括各类文档、问答素材等，这就需要用到 LLM+RAG 增强检索的能力。开发者可以在自己的业务后台实现与 OpenAI API 兼容的大模型接口，并将封装了上下文逻辑的大模型请求发送给第三方大模型。
提供了一个简化 Demo 供开发者参考，请参见 LLM RAG 服务。
注意：
使用 LLM 的 RAG 或 Function Call 等能力，一般会增加 LLM 的首 Token 耗时，从而增加 AI 回复的延迟。如果应用场景对延迟敏感，推荐使用SystemPrompt 来替代 RAG 功能。
准备 TTS
使用腾讯云 TTS
您需 开通应用的 TTS 服务 以使用 TTS 语音合成功能。您可以点击 免费领取语音合成资源包。
APPID 可前往 账号信息 获取。
SecretId 和 SecretKey 可前往 API 密钥管理 获取，SecretKey 仅支持在创建密钥时查看，请及时保存。
可前往 音色列表 获取可调整音色。
使用第三方或自定义 TTS
目前支持的 TTS 文字转语音配置（TTSConfig）。
准备 TRTC
注意：
AI 实时对话调用会产生使用费用，具体详情请参见 AI 实时对话计费说明。
1. ﻿创建 TRTC 应用。
2. 开通 语音转文字 服务。
接入步骤
业务流程图
﻿
步骤1：集成 TRTC SDK
﻿iOS 无 UI 集成指引﻿
﻿Android 无 UI 集成指引﻿
﻿Web&H5 无 UI 集成指引﻿
﻿小程序 无 UI 集成指引﻿
﻿Flutter 无 UI 集成指引﻿
﻿Windows 无 UI 集成指引﻿
﻿Mac 无 UI 集成指引﻿
步骤2：进入 TRTC 房间
﻿iOS 进入 TRTC 房间﻿
﻿Android 进入 TRTC 房间﻿
﻿Web&H5 进入TRTC房间﻿
﻿小程序 进入 TRTC 房间﻿
﻿Flutter 进入TRTC 房间﻿
﻿Windows 进入 TRTC 房间﻿
﻿Mac 进入TRTC 房间﻿
参数
类型
描述
sdkAppId
number
您在 TRTC 控制台 中创建的音频和视频应用程序的 sdkAppId。
userId
string
您指定的用户 ID。
userSig
string
用户签名，请参见 UserSig 。
roomId
number
您指定的房间 ID，通常是唯一的房间 ID。
智能客服场景推荐使用TRTCAppSceneAudioCall进房。
步骤3：发布音频流
Android&iOS&Flutter
Web&H5
小程序
Windows
Mac
您可以调用 startLocalAudio 来开启麦克风采集，该接口需要您通过 quality 参数确定采集模式。虽然这个参数的名字叫做 quality，但并不是说质量越高越好，不同的业务场景有最适合的参数选择（这个参数更准确的含义是 scene）。
AI 对话场景下推荐使用 SPEECH 模式，该模式下的 SDK 音频模块会专注于提炼语音信号，尽最大限度的过滤周围的环境噪音，同时该模式下的音频数据也会获得较好的差质量网络的抵抗能力，因此该模式特别适合于“视频通话”和“在线会议”等侧重于语音沟通的场景。
Android
iOS&Mac
Flutter
// 开启麦克风采集，并设置当前场景为：语音模式（高噪声抑制能力、强弱网络抗性）
mCloud.startLocalAudio(TRTCCloudDef.TRTC_AUDIO_QUALITY_SPEECH );
self.trtcCloud = [TRTCCloud sharedInstance];
// 开启麦克风采集，并设置当前场景为：语音模式（高噪声抑制能力、强弱网络抗性）
[self.trtcCloud startLocalAudio:TRTCAudioQualitySpeech];
// 开启麦克风采集，并设置当前场景为：语音模式（高噪声抑制能力、强弱网络抗性）
trtcCloud.startLocalAudio(TRTCAudioQuality.speech);
使用 trtc.startLocalAudio() 方法开启麦克风，并发布到房间。
await trtc.startLocalAudio();
在进入房间后，调用 getPusherInstance().start() 或者开启自动推流模式即可开始推流。
 enterRoom(options) {
    this.setData({
        pusher: this.TRTC.enterRoom({
          sdkAppID: 1400xxxxx, // 您的腾讯云账号
          userID: 'trtc-user', //当前进房用户的userID
          userSig: 'xxxxxxx', // 您服务端生成的userSig
          roomID: 1234, // 您进房的房间号，
          enableMic: true, // 进房默认开启音频上行
        }),
    }, () => {
        this.TRTC.getPusherInstance().start() // 开始进行推流
    })
},
调用 startLocalAudio 开启麦克风采集，请根据您的需求选择以下其中一个声音质量参数 Quality。
// 开启麦克风采集，设置当前场景为:语音模式
// 具有高的噪声抑制能力，有强有弱的网络阻力
ITRTCCloud* trtcCloud = CRTCWindowsApp::GetInstance()->trtc_cloud_;
trtcCloud->startLocalAudio(TRTCAudioQualitySpeech);
调用 startLocalAudio 开启麦克风采集，请根据您的需求选择以下其中一个声音质量参数 Quality。
// 开启麦克风采集，设置当前场景为:语音模式
// 具有高的噪声抑制能力，有强有弱的网络阻力
AppDelegate *appDelegate = (AppDelegate *)[[NSApplication sharedApplication] delegate];
[appDelegate.trtcCloud startLocalAudio:TRTCAudioQualitySpeech];
步骤4：发起 AI 对话
开始 AI 对话：StartAIConversation
通过业务后台调用 开始 AI 对话任务 接口，来发起 AI 实时对话，调用成功后，AI 机器人会进入 TRTC 房间。将 前提条件 中的 LLM 和 TTS 相关信息填入LLMConfig 和 TTSConfig中。
LLMConfig
TTSConfig
下面以 OpenAI 标准协议的 LLM 模型举例，介绍如何配置 LLMConfig。
配置说明
名称
类型
是否必填
描述
LLMType
String
是
大模型类型，只要是符合OpenAI API协议的大模型，都填写openai。
Model
String
是
具体的模型名称，例如gpt-4o、deepseek-chat。
APIKey
String
是
大模型的APIKey。
APIUrl
String
是
大模型的APIUrl。
Streaming
Boolean
否
是否流式，默认为false，建议填true。
SystemPrompt
String
否
系统提示词。
Timeout
Float
否
超时时间，取值范围 [1～50]， 默认为 3 秒（单位：秒）。
History
Integer
否
设置 LLM 的上下文轮次，默认值：0（不提供上下文管理），最大值：50（提供最近 50 轮的上下文管理）。
MaxTokens
Integer
否
输出文本的最大 token 限制。
Temperature
Float
否
采样温度。
TopP
Float
否
采样的选择范围，控制输出 token 的多样性。
UserMessages
Object[]
否
用户提示词。
MetaInfo
Object
否
自定义参数，会放在请求的 body 中透传给大模型。 
配置示例
"LLMConfig": {
    "LLMType": "openai",
    "Model": "gpt-4o",
    "APIKey": "api-key",
    "APIUrl": "https://api.openai.com/v1/chat/completions",
    "Streaming": true,
    "SystemPrompt": "你是一个个人助手",
    "Timeout": 3.0,
    "History": 5,
    "MetaInfo": {},
    "MaxTokens": 4096,
    "Temperature": 0.8,
    "TopP": 0.8,
    "UserMessages": [
      {
        "Role": "user",
        "Content": "content"
      },
      {
        "Role": "assistant",
        "Content": "content"
      }
    ]
  }
下面以腾讯 TTS 举例，介绍如何配置 TTSConfig。
{ 
    "TTSType": "tencent", // String TTS类型, 目前支持"tencent" 和 “minixmax”， 其他的厂商支持中
    "AppId": 您的应用ID, // Integer 必填
    "SecretId": "您的密钥ID", // String 必填
    "SecretKey":  "您的密钥Key", // String 必填
    "VoiceType": 101001, // Integer 必填，音色 ID，包括标准音色与精品音色，精品音色拟真度更高，价格不同于标准音色，请参见语音合成计费概述。完整的音色 ID 列表请参见语音合成音色列表。
    "Speed": 1.25, // Integer 非必填，语速，范围：[-2，6]，分别对应不同语速： -2: 代表0.6倍 -1: 代表0.8倍 0: 代表1.0倍（默认） 1: 代表1.2倍 2: 代表1.5倍  6: 代表2.5倍  如果需要更细化的语速，可以保留小数点后 2 位，例如0.5/1.25/2.81等。 参数值与实际语速转换，可参考 语速转换
    "Volume": 5, // Integer 非必填，音量大小，范围：[0，10]，分别对应11个等级的音量，默认值为0，代表正常音量。
    "PrimaryLanguage": 1, // Integer 可选 主要语言 1-中文（默认） 2-英文 3-日文
    "FastVoiceType": "xxxx"   // String 可选参数，快速声音复刻的参数 
    "EmotionCategory":"angry",// String 非必填，控制合成音频的情感，仅支持多情感音色使用。取值: neutral(中性)、sad(悲伤)...
    "EmotionIntensity":150 //Integer 非必填，控制合成音频情感程度，取值范围为 [50,200]，默认为 100；只有 EmotionCategory 不为空时生效。 
}
目前支持的 LLMConfig 和 TTSConfig 配置说明：
﻿大模型配置（LLMConfig）﻿
﻿文字转语音配置（TTSConfig）﻿
注意：
RoomId 需要和客户端进房的 RoomId 保持一致，并且房间号的类型（数字房间号、字符串房间号）也必须相同（即机器人和用户需要在同一个房间）。
TargetUserId 需要和客户端进房使用的 UserId 一致。
LLMConfig 和 TTSConfig 均为 JSON 字符串，需要正确配置才能成功发起 AI 实时对话。
步骤5：开始对话
此时，用户已经可以正常和 AI 客服进行对话。
步骤6：停止 AI 对话，退出 TRTC 房间
1. 服务端停止 AI 对话任务。
通过业务后台调用 停止 AI 对话 接口，停止该对话任务。
2. 客户端退出 TRTC 房间，建议参见 退出房间。
高级功能
远场人声抑制
在与 AI 客服语音对话中，可能会出现 AI 将用户侧其他人声识别为用户说的话，进行回复。为了尽量避免此类情况的发生，我们需要用到远场人声抑制的能力。在调用 开始 AI 对话任务 接口时，可以将 STTConfig.VadLevel 设置为2或者3，有较好的远场人声抑制能力。
对话延迟优化
TRTC AI 实时对话中，AI 回复的延迟主要由 LLM、TTS 的首包耗时，和 ASR 的 VadSilenceTime、TRTC 通道的时延组成。
TRTC 自研多重最优寻址算法，具有全网调度能力，端到端平均时延 < 300ms，相比 LLM 和 TTS 的首包耗时，TRTC 的时延非常小，开发者一般无需关心其延迟。
ASR 的耗时基本由 VadSilenceTime 决定，太高会增加对话的延迟，太低会让 ASR 断句间隔太短，用户说话时稍微停顿一下，就会被当成完整的话，送去请求 LLM。一般推荐将 VadSilenceTime 设置为500ms - 1000ms，然后打开 语义断句功能。
LLM 和 TTS 的首包耗时是对 AI 回复延迟影响最大的部分，一般是对这两者进行优化。开发者可通过 客户端回调 和 服务端回调 获取到 LLM 和 TTS 首包耗时的回调。
指标名称说明
状态代码
描述
asr_latency
ASR 延迟。注意：指标包含启动 AI 对话时 VadSilenceTime 所设置的时间
llm_network_latency
LLM 请求的网络耗时
llm_first_token
LLM 首 token 耗时，指标包含网络耗时
tts_network_latency
TTS 请求的网络耗时
tts_first_frame_latency
TTS 首帧耗时，指标包含网络耗时
tts_discontinuity
TTS 未连续的次数，代表 TTS 流式请求播放完成之后，下一个请求还没有返回结果，通常是 TTS 延迟比较高导致
interruption
表示此轮对话被打断
其中最重要的数据就是 llm_first_token（LLM 的首包耗时）和 tts_first_frame_latency（TTS 的首包耗时）。
llm_first_token
LLM 的首包耗时建议控制在2秒以内，越低越好。在语音对话场景中，推荐 LLM 使用流式返回（需要把 LLMConfig 的 Streaming 设为 true），可以极大降低延迟。不建议选用 DeepSeek-R1 等思考型模型，此类 LLM 延迟太大，没办法应用在语音对话中。如果对对话延迟特别敏感，可以选用一些参数更小的模型，很多模型可以把首包耗时控制在500ms左右。
此外，额外接入一些 Agent 或工作流平台，可能会导致首包耗时变高。单独使用 LLM + Prompt 的耗时普遍更低。
tts_first_frame_latency
大部分 TTS 的首包耗时一般在500ms - 1000ms左右，如果耗时特别高，可以更换音色或 TTS 提供商，以优化对话延迟体验。
使用语义断句
对话语义断句是一种高级断句功能，通过结合传统声学信号和上下文语义分析来实现更精准的对话断句识别，有效解决传统方法中的限制，显著提升对话体验质量。
启用语义断句功能非常简单，只需在启动对话任务时进行适当配置。
// 在调用 StartAIConversation 接口时
AgentConfig.TurnDetectionMode = 3
参数说明：TurnDetectionMode = 3：启用语义断句模式
灵敏度调节（可选）
当启用语义断句模式后，您可通过以下参数调整断句的灵敏度：
// 在调用 StartAIConversation 接口时
AgentConfig.TurnDetection.SemanticEagerness = "low" | "medium" | "high" | "auto"
参数说明
参数
说明
auto
默认设置，与 medium 级别相同，提供平衡的响应时机。
low
保守模式，给予用户充分表达时间，等待更长的停顿才判定为语音结束。
medium
均衡模式，在用户表达与系统响应间取得平衡。
high
积极模式，更快速地对音频进行分块处理，实现更频繁的交互响应。
说明：
无论选择哪种灵敏度，系统最终都会将语音内容分段并传送给大模型进行处理和回复。
接收 AI 对话字幕及 AI 状态
通过 TRTC SDK 接收自定义消息功能，在客户端上监听回调来接收实时字幕与 AI 状态等数据。cmdID 固定是1。
接收实时字幕
消息格式：
{
  "type": 10000, // 10000表示是下发的实时字幕
  "sender": "user_a", // 说话人的userid
  "receiver": [], // 接收者userid列表，该消息实际是在房间内广播
  "payload": {
     "text":"", // 语音识别出的文本
     "start_time":"00:00:01", // 这句话的开始时间
     "end_time":"00:00:02", // 这句话的结束时间
     "roundid": "xxxxx", // 唯一标识一轮对话
     "end": true // 如果为true，代表这是一句完整的话
  }
}
接收机器人状态
消息格式：
{
  "type": 10001, // 机器人的状态
  "sender": "user_a", // 发送者userid，这里是机器人的id
  "receiver": [], // 接受者userid列表，该消息实际是在房间内广播
  "payload": {
    "roundid": "xxx", // 唯一标识一轮对话
    "timestamp": 123,
    "state": 1,      //   1 聆听中  2 思考中  3 说话中  4 被打断  5 说完话
  }
}
﻿
示例代码
Android
iOS
Web&H5
@Override
public void onRecvCustomCmdMsg(String userId, int cmdID, int seq, byte[] message) {
    String data = new String(message, StandardCharsets.UTF_8);
    try {
        JSONObject jsonData = new JSONObject(data);
        Log.i(TAG, String.format("receive custom msg from %s cmdId: %d seq: %d data: %s", userId, cmdID, seq, data));
    } catch (JSONException e) {
        Log.e(TAG, "onRecvCustomCmdMsg err");
        throw new RuntimeException(e);
    }
}
func onRecvCustomCmdMsgUserId(_ userId: String, cmdID: Int, seq: UInt32, message: Data) {
    if cmdID == 1 {
        do {
            if let jsonObject = try JSONSerialization.jsonObject(with: message, options: []) as? [String: Any] {
                print("Dictionary: \\(jsonObject)")
                // handleMessage(jsonObject)
            } else {
                print("The data is not a dictionary.")
            }
        } catch {
            print("Error parsing JSON: \\(error)")
        }
    }
}
trtcClient.on(TRTC.EVENT.CUSTOM_MESSAGE, (event) => {
    let data = new TextDecoder().decode(event.data);
    let jsonData = JSON.parse(data);
    console.log(`receive custom msg from ${event.userId} cmdId: ${event.cmdId} seq: ${event.seq} data: ${data}`);
        
    if (jsonData.type == 10000 && jsonData.payload.end == false) {
        // 字幕中间状态
    } else if (jsonData.type == 10000 && jsonData.payload.end == true) {
       //  一句话说完了 
    }
});
说明：
我们有更多 AI 对话客户端上的回调，具体可参见：AI 对话状态回调、AI 对话字幕回调、AI 对话指标回调、AI 对话错误回调。
打断时延优化
如果觉得对话时打断 AI 说话的时延较高，可以通过将 启动 AI 对话接口 里的 AgentConfig.InterruptSpeechDuration 和 STTConfig.VadSilenceTime 参数设置低一点，以降低打断时延。建议同时打开 远场人声抑制 能力，以降低误打断的概率。
参数
类型
描述
AgentConfig.InterruptSpeechDuration
Integer
InterruptMode 为0时使用，单位为毫秒，默认为500ms。表示服务端检测到持续 InterruptSpeechDuration 毫秒的人声则进行打断。
示例值：500
STTConfig.VadSilenceTime
Integer
语音识别 vad 的时间，范围为240 - 2000，默认为1000，单位为ms。更小的值会让语音识别分句更快。
示例值：500
服务端回调
可参见 AI 对话服务端回调﻿。
注意：
回调地址在 TRTC 控制台设置，AI 实时对话回调。
可配合 TRTC 房间与媒体回调 使用，丰富功能。
云端录制
TRTC 最新升级的云端录制，不依赖云直播的能力，无需旁路转推云直播，使用 TRTC 内部的实时录制集群进行音视频录制，拥有更完整统一的录制体验。
单流录制：通过 TRTC 的云端录制功能，您可以将房间中通话双方的音视频流都录制成独立的文件。
﻿
﻿
﻿
混流录制：将同一个房间中的所有音视频媒体流混流录制成一个文件。
﻿
﻿
﻿
注意：
TRTC 云端录制的具体介绍及开通指引详见 实现云端录制与回放。
单流录制可以使用 全局自动录制，混流录制则需使用 API 手动录制。
常见问题
为什么机器人没有说话？
1. 检查客户端是否有开启麦克风采集，并发布音频流。
2. 通过 TRTC SDK 接收自定义消息功能，检查是否可以接收到实时字幕与 AI 状态等数据。如果接收不到，建议检查在调用 StartAIConversation 接口时的RoomId 是否和客户端进房的 RoomId 一致，并且房间号的类型（数字房间号、字符串房间号）也必须相同（即机器人和用户需要在同一个房间）。另外检查 TargetUserId 是否和客户端进房使用的 UserId 一致。
3. 如果能接收到自己说话的字幕，但收不到机器人的回复字幕，建议检查 LLM 相关的配置。
4. 如果能收到机器人回复的字幕，但听不到机器人的声音，建议检查 TTS 相关的配置。
5. 可以通过 客户端 和 服务端 的回调，获取到 LLM 和 TTS 的报错信息，便于开发者排查。
服务类别
错误码
错误描述
ASR 
30100
请求超时
﻿
30102
内部错误
LLM
30200
请求 LLM 超时
﻿
30201
LLM 请求被频率限制
﻿
30202
LLM 服务返回失败
TTS
30300
请求 TTS 服务超时
﻿
30301
TTS 请求被频率限制
﻿
30302
TTS 服务返回失败
大模型 Timeout 报错
如果遇到 LLM Timeout 报错，如提示 llm error Timeout on reading data from socket ，一般是 LLM 请求超时了，可以将 LLMConfig 里的 Timeout 参数设置大点（默认为3秒）。此外，当 LLM 的首包耗时超过3秒时，较高的对话延迟会影响 AI 对话的体验，如果没有特殊需求，建议可以优化一下 LLM 的首包耗时，可参见 对话延迟优化。
腾讯 TTS 报错
如果遇到腾讯 TTS 报错，例如报错：
TencentTTS chunk error {'Response': {'RequestId': 'xxxxxx', 'Error': {'Code': 'AuthorizationFailed', 'Message': "Please check http header 'Authorization' field or request parameter"}}}
可从以下几个方面排查：
1. 检查是否有开通应用的 TTS 服务。
2. 检查 APPID、SecretId、SecretKey 是否填写正确。
3. 检查是否有领取免费的 TTS 资源包。
4. 检查填写的音色 ID 是否包含在免费资源包内。
可参见 准备工作 中的 TTS 部分的步骤，重新走一遍。此外，如果使用的是子账号，也需要 给子账号开通 TTS 权限。
为什么用户回答单个文字时，不会去请求 LLM？
当用户回答“是”、“好”等单个文字时，如果不去请求 LLM，可以检查是否有将 启动 AI 对话接口 里的 AgentConfig.FilterOneWord 参数设置为 false （默认为 true）。
参数
类型
描述
FilterOneWord
Boolean
是否过滤掉用户只说了一个字的句子，true 表示过滤，false 表示不过滤，默认值为 true
示例值：true
TRTC 异常错误处理
TRTC SDK 遇到不可恢复的错误会在 onError 回调中抛出，详情请参见 TRTC 错误码表。
1. UserSig 相关。UserSig 校验失败会导致进房失败，您可参见 UserSig 生成与校验 进行校验。
枚举
取值
描述
ERR_TRTC_INVALID_USER_SIG
-3320
进房参数 userSig 不正确，请检查 TRTCParams.userSig 是否为空。
ERR_TRTC_USER_SIG_CHECK_FAILED
-100018
UserSig 校验失败，请检查参数 TRTCParams.userSig 是否填写正确或已经过期。
2. 进退房相关。进房失败请先检查进房参数是否正确，且进退房接口必须成对调用，即便进房失败也需要调用退房接口。
枚举
取值
描述
ERR_TRTC_CONNECT_SERVER_TIMEOUT
-3308
请求进房超时，请检查是否断网或者是否开启 VPN，您也可以切换4G进行测试。
ERR_TRTC_INVALID_SDK_APPID
-3317
进房参数 sdkAppId 错误，请检查 TRTCParams.sdkAppId 是否为空。
ERR_TRTC_INVALID_ROOM_ID
-3318
进房参数 roomId 错误，请检查 TRTCParams.roomId 或 TRTCParams.strRoomId 是否为空，注意 roomId 和 strRoomId 不可混用。
ERR_TRTC_INVALID_USER_ID
-3319
进房参数 userId 不正确，请检查 TRTCParams.userId 是否为空。
ERR_TRTC_ENTER_ROOM_REFUSED
-3340
进房请求被拒绝，请检查是否连续调用 enterRoom 进入相同 ID 的房间。
3. 设备相关。可监听设备相关错误，在出现相关错误时 UI 提示用户。
枚举
取值
描述
ERR_MIC_START_FAIL
-1302
打开麦克风失败，例如在 Windows 或 Mac 设备，麦克风的配置程序（驱动程序）异常，禁用后重新启用设备，或者重启机器，或者更新配置程序。
ERR_MIC_NOT_AUTHORIZED
-1317
麦克风设备未授权，通常在移动设备出现，可能是权限被用户拒绝了。
ERR_MIC_OCCUPY
-1319
麦克风正在被占用中，例如移动设备正在通话时，打开麦克风会失败。
方案配套产品
系统层级
产品名称
场景用途
接入层
﻿实时音视频 TRTC﻿
提供低延时、高品质的音视频实时互动解决方案，是音视频通话场景的基础底座能力。
云端服务
﻿TRTC AI 实时对话﻿
实现 AI 与用户之间的实时音视频互动，打造符合业务场景的 AI 实时对话能力。
大模型
﻿腾讯云智能体开发平台﻿
智能客服的大脑，提供 LLM+RAG、Workflow、Multi-agent 等多种智能体开发框架。
数据存储
﻿对象存储 COS﻿
提供音频录制文件、音频切片文件的存储服务。

功能	AI 智能客服场景应用
实时音视频	流式传输技术可以确保语音和视频数据的连续性和稳定性，减少延迟和抖动，提供接近于真人客服通话的高质量体验。用户可以与智能客服系统进行更自然的对话，就像是在和真人客服交谈一样，这种互动体验可以显著提升用户满意度。
TRTC AI 实时对话	腾讯 AI 实时对话解决方案，支持客户灵活接入多家 AI 大模型服务，实现 AI 与用户之间的实时音视频互动，打造符合业务场景的 AI 实时对话能力。基于腾讯 RTC 全球低延迟传输，语音对话延迟低至1s，对话效果自然拟真，接入便捷，开箱即用。
大语言模型 LLM	LLM 技术使智能语音客服能够更好地理解对话的上下文，从而实现连贯的对话交流。LLM 可以捕捉对话中的语义和语境信息，识别用户意图，并将上一轮对话的内容与当前对话关联起来。
文字转语音 TTS	支持接入第三方 TTS，通过在模型中引入个性化的训练数据或调整模型的参数，可以生成符合特定要求的语音输出。智能语音客服可以根据用户的偏好或特定场景的需求，提供不同的语音风格。

参数	类型	描述
sdkAppId	number	您在 TRTC 控制台中创建的音频和视频应用程序的 sdkAppId。
userId	string	您指定的用户 ID。
userSig	string	用户签名，请参见 UserSig 。
roomId	number	您指定的房间 ID，通常是唯一的房间 ID。

名称	类型	是否必填	描述
LLMType	String	是	大模型类型，只要是符合`OpenAI API`协议的大模型，都填写`openai`。
Model	String	是	具体的模型名称，例如`gpt-4o`、`deepseek-chat`。
APIKey	String	是	大模型的`APIKey`。
APIUrl	String	是	大模型的`APIUrl`。
Streaming	Boolean	否	是否流式，默认为`false`，建议填`true`。
SystemPrompt	String	否	系统提示词。
Timeout	Float	否	超时时间，取值范围 [1～50]，默认为 3 秒（单位：秒）。
History	Integer	否	设置 LLM 的上下文轮次，默认值：0（不提供上下文管理），最大值：50（提供最近 50 轮的上下文管理）。
MaxTokens	Integer	否	输出文本的最大 token 限制。
Temperature	Float	否	采样温度。
TopP	Float	否	采样的选择范围，控制输出 token 的多样性。
UserMessages	Object[]	否	用户提示词。
MetaInfo	Object	否	自定义参数，会放在请求的 body 中透传给大模型。

状态代码	描述
asr_latency	ASR 延迟。注意：指标包含启动 AI 对话时 VadSilenceTime 所设置的时间
llm_network_latency	LLM 请求的网络耗时
llm_first_token	LLM 首 token 耗时，指标包含网络耗时
tts_network_latency	TTS 请求的网络耗时
tts_first_frame_latency	TTS 首帧耗时，指标包含网络耗时
tts_discontinuity	TTS 未连续的次数，代表 TTS 流式请求播放完成之后，下一个请求还没有返回结果，通常是 TTS 延迟比较高导致
interruption	表示此轮对话被打断

参数	说明
auto	默认设置，与 medium 级别相同，提供平衡的响应时机。
low	保守模式，给予用户充分表达时间，等待更长的停顿才判定为语音结束。
medium	均衡模式，在用户表达与系统响应间取得平衡。
high	积极模式，更快速地对音频进行分块处理，实现更频繁的交互响应。

服务类别	错误码	错误描述
ASR	30100	请求超时
ASR		30102	内部错误
LLM	30200	请求 LLM 超时
		30201	LLM 请求被频率限制
		30202	LLM 服务返回失败
TTS	30300	请求 TTS 服务超时
		30301	TTS 请求被频率限制
		30302	TTS 服务返回失败

枚举	取值	描述
ERR_TRTC_INVALID_USER_SIG	-3320	进房参数 userSig 不正确，请检查 `TRTCParams.userSig` 是否为空。
ERR_TRTC_USER_SIG_CHECK_FAILED	-100018	UserSig 校验失败，请检查参数 `TRTCParams.userSig` 是否填写正确或已经过期。

系统层级	产品名称	场景用途
接入层	实时音视频 TRTC	提供低延时、高品质的音视频实时互动解决方案，是音视频通话场景的基础底座能力。
云端服务	TRTC AI 实时对话	实现 AI 与用户之间的实时音视频互动，打造符合业务场景的 AI 实时对话能力。
大模型	腾讯云智能体开发平台	智能客服的大脑，提供 LLM+RAG、Workflow、Multi-agent 等多种智能体开发框架。
数据存储	对象存储 COS	提供音频录制文件、音频切片文件的存储服务。

智能客服

本页目录：

场景介绍

实现方案

方案架构

前提条件

准备 LLM

使用 RAG

准备 TTS

使用腾讯云 TTS

使用第三方或自定义 TTS

准备 TRTC

接入步骤

业务流程图

步骤1：集成 TRTC SDK

步骤2：进入 TRTC 房间

步骤3：发布音频流

步骤4：发起 AI 对话

配置说明

配置示例

步骤5：开始对话

步骤6：停止 AI 对话，退出 TRTC 房间

高级功能

远场人声抑制

对话延迟优化

指标名称说明

使用语义断句

灵敏度调节（可选）

参数说明

接收 AI 对话字幕及 AI 状态

接收实时字幕

接收机器人状态

示例代码

打断时延优化

服务端回调

云端录制

常见问题

为什么机器人没有说话？

大模型 Timeout 报错

腾讯 TTS 报错

为什么用户回答单个文字时，不会去请求 LLM？

TRTC 异常错误处理

方案配套产品