方案概述
基于腾讯云 RTC 全球传输网络,AI 实时转录解决方案提供实时语音转文本和翻译能力。通过语音识别引擎(ASR)可对指定房间的音频流进行实时识别并将语音转换为文本内容(STT),快速构建直播实时字幕、会议内容实时记录、视频通话与语聊内容转写等多种场景下的语音识别应用。语音识别转文本后支持开启多语言翻译能力,实现跨语言内容实时翻译转写。
基本架构
AI 实时转录解决方案核心功能为实时语音转文本能力。翻译功能为可选项,未开启时不会产生翻译用量费用。
实时语音转文本: 如下方架构图所示,音频流经过 TRTC 全球网络节点传输到服务端进行音频处理后,由语音识别引擎(ASR)将语音转写为文本。系统支持多语种、热词权重配置、VAD 检测以及实时流式识别。对于需生成字幕或实时内容记录的场景,在此流程即可直接输出最终转写结果回调。
实时翻译链路 (可选择开启): 针对跨语言理解的场景,可在语音转写的基础上开启翻译功能。系统会将转写后的文本通过 LLM 翻译引擎进行翻译处理,并同时输出原文转写内容以及多语种翻译结果。

能力支持
AI 实时转录服务包含语音转文本和实时翻译两大核心能力。其中,语音转文本能力分为基础、标准和高级三个版本引擎 ,可参考下文表格并根据使用场景需求选择适合的模型能力。
版本类型 | 特性说明 | 语种与模型型号 | |
语音转文本 | 基础版语言引擎 | 基础通用语音识别模型。在近场、非复杂噪声的声学环境下具备良好的响应速度与识别准确率。 | "zh": 8k 采样率中文识别模型,主要用于电话音频。 |
| 标准版语言引擎 | 基于大模型引擎,语音识别性能大幅增强,在噪声回音大、人声远小等复杂音频环境的识别准确率显著提升。 常见应用场景如会议、直播、语聊、游戏等实时字幕以及实时转写记录等。高度契合 RTC 实时互动相关场景。 | "8k_zh_large": 8k 中文大模型引擎,针对电话音频支持较好。 "16k_zh_large": 16k 大模型引擎, 同时支持中文、英文、多种中文方言口音等语言的识别。 "16k_zh_en": 最新 16k 中英大模型引擎, 同时支持中文、英语、多种中文方言口音的识别,对中英混说场景识别更优。 |
| 高级版语言引擎 | 覆盖小语种、方言的精准识别需求。 | 越南语、日语、韩语、 印度尼西亚语、泰语、葡萄牙语、土耳其语、 阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语、中国粤语 |
实时翻译 | 实时翻译引擎 | 基于最新大语言模型技术的深度语义理解能力,系统能够自主适应目标语言表达习惯,实现自然流畅翻译效果。相较于传统翻译,翻译结果的机械感显著降低,在非正式标准的口语对话交流、泛娱互动等复杂场景下的效果提升明显。 | 支持15种语言翻译:中文、英语、西班牙语、葡萄牙语、法语、德语、俄语、阿拉伯语、日语、韩语、越南语、马来语、印度尼西亚语、意大利语、泰语。 支持术语干预功能,提升模型在复杂应用场景下的效果。 |
说明:
计费方式
AI 实时转录费用主要由两个独立部分组成:RTC 音频通话费用、AI 语音转文本费用;若需要翻译功能则在前两者基础上额外增加实时翻译费用。以上能力都需要通过购买 AI 智能识别 或 TRTC 包月套餐包解锁,超量支持后付费,具体能力解锁所需套餐版本和费用详情请参见 AI 智能识别计费说明。
接入方式
TRTC AI 实时转录解决方案支持快速接入(无 UI)以及场景套件(含 UI)组合接入:
场景方案(含 UI):目前已经支持 视频通话 AI 实时字幕和翻译 方案和 多人会议 AI 实时字幕 方案。助力快速上线含 UI 的场景化实时转录功能。
应用场景
应用场景 | 使用方式与价值 |
在线教育 | 通过 AI 转录对讲师与学员发言实时转写,课上提供实时字幕辅助理解,同步实时沉淀课程笔记与关键发言,可用于实时总结,课后复习、回放、存档。开启翻译功能后,可支持多语课堂或跨国教学场景。 |
社交娱乐 | 在社交娱乐场景中,通过 AI 转录能够对在线直播、游戏语聊、互动问答等场景,对发言内容进行实时转写,为观众提供准确字幕增强理解。同时支持输出多语言翻译内容,让不同地区用户能够更自然地参与互动。 |
办公协作 | 在线会议、线上面试、商务沟通、研讨会等场景下,通过 AI 转录生成实时字幕与内容记录,会中提升理解效率,会后可用于内容纪要整理。开启翻译功能后,可同时输出多语言转写,支持跨国团队无障碍协作。 |
客服中心 | 在线客服、智能外呼、呼叫中心等场景中,通过实时转写帮助客服准确理解用户内容。通话结束后沉淀完整文本记录,用于质检、合规与服务分析。开启翻译功能后,支持客服快速处理跨语言咨询,提高响应效率。 |