语音识别产品功能

本文将介绍腾讯云语音识别的产品系列、产品功能、产品应用场景及关键参数等信息。计费详情请参见 计费概述（在线版）。
语音识别（ASR）系列
腾讯云语音识别（ASR）系列产品共包含以下五个子产品：录音文件识别、实时语音识别、录音文件识别极速版、一句话识别 和 语音流异步识别。提供腾讯云语音识别基础的 AI 语音转文字能力。这些产品均以接口形式（PaaS 级）提供产品服务。
语音识别
基础产品
功能简介
免费并发路数 / QPS 额度
时效性
常见应用场景
支持语种（算法引擎）
特色功能
﻿录音文件识别﻿
可对时长5小时以内的录音文件进行识别
接口限频：20次/秒（异步回调产品，仅限制接口请求频次）
非实时
说明：异步回调，最长在3小时内完成识别，大多数情况下1小时音频约3分钟以内完成识别（半小时内发送超过1000小时录音或者2万条识别任务的除外）
呼叫中心语音转写、庭审数据录入、会议转写、直播语音转写质检、课堂语音内容转写等时效性要求不高的场景
8k_zh：中文普通话电话通讯
8k_en：英文电话通讯
8k_zh_large：中文、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话
16k_zh_en 中英大模型：中文普通话 + 英语 + 多方言混合引擎，除普通话外支持31种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话、潮汕话、宁波话、无锡话、吴语）
16k_en_large 英文大模型: 英语
16k_multi_lang 多语种大模型：同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别，可实现15个语种的自动识别(句子/段落级别)
16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇
16k_en：英语通用
16k_yue：粤语
16k_zh-TW：中文繁体
16k_zh_medical：中文医疗引擎
16k_ja：日语
16k_ko：韩语
16k_vi：越南语
16k_ms：马来语
16k_id：印度尼西亚语
16k_fil：菲律宾语
16k_th：泰语
16k_pt：葡萄牙语
16k_tr：土耳其语
16k_ar：阿拉伯语
16k_es：西班牙语
16k_hi：印地语
16k_fr：法语
16k_de：德语
说话人分离（支持分离1 - 10人）
﻿情绪识别﻿
﻿热词增强版﻿
单标点最大字数
﻿实时语音识别﻿
可识别长时间传入的语音流数据，实时返回识别结果，实现“边说边出文字”的效果
200路
实时
智能外呼、人工客服、数字人（虚拟人）、对话机器人、会议实时字幕、游戏内语音识别、直播实时字幕等有实时要求的场景
﻿
8k_zh：中文普通话电话通讯
8k_en：英文电话通讯
8k_zh_large：中文、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话
16k_zh_en 中英大模型：中文普通话 + 英语 + 多方言混合引擎，除普通话外支持31种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话、潮汕话、宁波话、无锡话、吴语）
16k_en_large 英文大模型: 英语
16k_multi_lang 多语种大模型：同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别，可实现15个语种的自动识别(句子/段落级别)
16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇
16k_en：英语通用
16k_zh-TW：中文繁体
16k_zh_edu：中文教育
16k_zh_medical：中文医疗
16k_zh_court：中文法庭
16k_yue：粤语
16k_en_game：英文游戏；
16k_en_edu：英文教育；
16k_ja：日语
16k_ko：韩语
16k_vi：越南语
16k_ms：马来语
16k_id：印度尼西亚语
16k_fil：菲律宾语
16k_th：泰语
16k_pt：葡萄牙语
16k_tr：土耳其语
16k_ar：阿拉伯语
16k_es：西班牙语
16k_hi：印地语
16k_fr：法语
16k_de：德语
VAD 检测
﻿热词增强版﻿
断句检测阈值
﻿临时热词表﻿
﻿情绪识别

﻿录音文件识别极速版﻿
可对时长2小时以内的录音文件进行识别
20路
准实时
说明：通常30分钟音频可在10秒内完成识别
短视频快速生成字幕、快速语音转写质检、新闻语音转写等转写时效性较高的场景
8k_zh：中文普通话电话通讯
8k_en：英文电话通讯
8k_zh_large：中文、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话
16k_zh_en 中英大模型：中文、英语、粤语、四川话、陕西话、河南话、上海话、湖南话、湖北话、安徽话、闽南和潮汕方言
16k_multi_lang 多语种大模型：同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别，可实现15个语种的自动识别(句子/段落级别)
16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇
16k_yue：粤语
16k_en：英语
16k_ja：日语
16k_ko：韩语
16k_vi：越南语
16k_ms：马来语
16k_id：印度尼西亚语
16k_fil：菲律宾语
16k_th：泰语
16k_pt：葡萄牙语
16k_tr：土耳其语
16k_ar：阿拉伯语
16k_es：西班牙语
16k_hi：印地语
16k_fr：法语
16k_de：德语
﻿热词增强版﻿
﻿临时热词表﻿
单标点最大字数
﻿一句话识别﻿
可对60秒以内的短音频文件进行识别
30QPS
准实时
说明：通常30秒音频可在3秒内完成识别
语音输入法、语音消息转文字、语音搜索等短音频场景
8k_zh：中文普通话电话通讯
8k_en：英文电话通讯
16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇
16k_zh_dialect：多方言，支持23种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话）；
16k_en：英语
16k_zh_medical：中文医疗
16k_yue：粤语
16k_ja：日语
16k_ko：韩语
16k_vi：越南语
16k_ms：马来语
16k_id：印度尼西亚语
16k_fil：菲律宾语
16k_th：泰语
16k_pt：葡萄牙语
16k_tr：土耳其语
16k_ar：阿拉伯语
16k_es：西班牙语
16k_hi：印地语
16k_fr：法语
16k_de：德语
﻿热词增强版﻿
﻿临时热词表﻿
语音识别（ASR）特色功能
热词和自学习定制模型
腾讯云语音识别（ASR，Automatic Speech Recognition）产品除了适用于通用场景外，在多个垂类场景（如：智能外呼、法庭、游戏、医疗、教育、直播等）进行了大量训练，能够满足不同业务的识别需求，腾讯云语音识别所提供的多套模型的识别性能得到内外部用户的一致认可。
对于部分特殊的业务场景，尤其是原创用语、创新用语、新热度词句、生僻用语组合等可能影响识别性能的情况，我们提供了 热词、替换词 和 自学习定制模型 三种方案，供客户自助对特殊场景进行 ASR 效果优化。
临时热词表
对于单次请求有大量热词需求的用户（例如，开放热词功能给到 C 端用户的情况），我们提供了临时热词表的方案。临时热词表无需事先创建热词表，在每次请求时直接传入临时热词表，云端不会保留每次传入的临时热词表。
临时热词表限制：多个热词用英文逗号分隔，最多128个热词。
参数示例：“腾讯云|10,语音识别|5,ASR|10”
支持的子产品：实时语音识别、录音文件识别极速版、一句话识别。
超级热词
超级热词的效果：超级热词对词表相关内容识别准确率相比通用热词有极大提升。
超级热词的使用方法：创建热词表或每次请求直接传入临时热词表时，若热词权重设置为11，热词将升级为超级热词。但建议仅将重要且必须生效的热词设置到11，设置过多权重为11的热词将影响整体字准率。
参数示例：“腾讯云|11”
支持的子产品：实时语音识别、录音文件识别、录音文件识别极速版、一句话识别、语音流异步识别。
替换词
配置了热词后仍效果不好，可使用 替换词功能。替换词的逻辑是强制将识别错误的文本替换为正确的。添加替换词可以显著提升通用引擎在这类专有词汇上的识别准确率。支持的子产品：实时语音识别、录音文件识别、录音文件识别极速版。
语音识别 +（ASR+）系列
腾讯云语音识别 +（ASR）系列产品目前包含以下两个子产品：说话人识别、虚拟号真人判定。提供基于语音转文字能力的垂类场景独立接口服务。这些产品均以接口形式（PaaS 级）提供产品服务。
语音识别
基础产品
功能简介
免费并发路数 / QPS 额度
时效性
常见应用场景
﻿说话人识别﻿
基于语音识别与声纹识别能力，将说话人的音频与语音库中该说话人预存的音频进行1:1和1:N 比对验证，具备一定的抗攻击能力。
20QPS
准实时
登录锁、身份核验等场景
﻿虚拟号真人判定﻿
基于语音识别和声学算法能力，在智能外呼场景下，能够在毫秒级准确判断真人用户何时接起电话，帮助客户判断对话机器人的启动时机。
200路
实时（毫秒级判定接听状态）
智能外呼场景中，因虚拟号平台转接而无法直接触达客户、从而无法在正确时机启动机器人对话的场景
增值产品系列
语音识别增值产品是指用户在使用 语音识别（ASR）系列 产品时，针对某些参数和功能需要额外进行收费的功能。这些功能在常规的语音转文字能力之外，能够解析更多的音频信息，可极大提升客户的使用体验。客户可根据实际需要选择是否需要开启产品的增值功能。
语音识别
增值产品
适用接口与参数
功能简介
常见应用场景
﻿收费介绍
﻿
﻿情绪识别﻿
﻿录音文件识别﻿
（目前仅支持 8k_zh、16k_zh、16k_zh_en 引擎，入参 EmotionRecognition）
﻿实时语音识别﻿
（目前仅支持 16k_zh、16k_zh_en、8k_zh、8k_zh_large 引擎，入参 EmotionRecognition）
﻿
情绪识别能力可解析音频中说话人的情绪，支持在文本或返回结构中展示情绪标签，如：高兴、愤怒、伤心等。
本功能为额外收费的增值能力，开启参数使用时会进行独立计费，详情请见 收费介绍。
﻿
服务质量监控、呼叫中心应对、会议氛围监控等场景
本功能为增值服务，与录音文件识别基础产品独立计费，不可叠加或互相抵消。
更多计费介绍请见 计费概述（在线版）- 情绪识别增值服务。
﻿分段﻿
﻿录音文件识别 
（目前仅支持 8k_zh、16k_zh 引擎，入参 ResTextFormat 的对应值4）
﻿
分段能力可对录音文件识别的识别结果按照语义分段，并展示词级别粒度的详细识别结果。
本功能为额外收费的增值能力，开启参数使用时会进行独立计费，详情请见 收费介绍。
﻿
﻿
庭审笔记、会议纪要等场景
本功能为增值服务，与录音文件识别基础产品独立计费，不可叠加或互相抵消。
更多计费介绍请见 计费概述（在线版）- 分段增值服务。
﻿口语转书面语﻿
﻿录音文件识别﻿
（目前仅支持 8k_zh、16k_zh 引擎，入参 ResTextFormat 的对应值5）
口语转书面语功能基于腾讯云大语言模型（LLM），可精简口语表达中的冗余、重复、语气词，并修正发言人口误，实现口语转书面语的效果。
本功能为额外收费的增值能力，开启参数使用时会进行独立计费，详情请见 收费介绍。
无需人工干预的会议纪要整理场景（例如，在线会议后直接输出会议纪要）
本功能为增值服务，与录音文件识别基础产品独立计费，不可叠加或互相抵扣。
更多计费介绍请见 计费概述（在线版）- 口语转书面语增值服务。
产品视频
﻿
﻿
﻿

语音识别基础产品	功能简介	免费并发路数 / QPS 额度	时效性	常见应用场景	支持语种（算法引擎）	特色功能
录音文件识别	可对时长5小时以内的录音文件进行识别	接口限频：20次/秒（异步回调产品，仅限制接口请求频次）	非实时说明：异步回调，最长在3小时内完成识别，大多数情况下1小时音频约3分钟以内完成识别（半小时内发送超过1000小时录音或者2万条识别任务的除外）	呼叫中心语音转写、庭审数据录入、会议转写、直播语音转写质检、课堂语音内容转写等时效性要求不高的场景	8k_zh：中文普通话电话通讯 8k_en：英文电话通讯 8k_zh_large：中文、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话 16k_zh_en 中英大模型：中文普通话 + 英语 + 多方言混合引擎，除普通话外支持31种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话、潮汕话、宁波话、无锡话、吴语） 16k_en_large 英文大模型: 英语 16k_multi_lang 多语种大模型：同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别，可实现15个语种的自动识别(句子/段落级别) 16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇 16k_en：英语通用 16k_yue：粤语 16k_zh-TW：中文繁体 16k_zh_medical：中文医疗引擎 16k_ja：日语 16k_ko：韩语 16k_vi：越南语 16k_ms：马来语 16k_id：印度尼西亚语 16k_fil：菲律宾语 16k_th：泰语 16k_pt：葡萄牙语 16k_tr：土耳其语 16k_ar：阿拉伯语 16k_es：西班牙语 16k_hi：印地语 16k_fr：法语 16k_de：德语	说话人分离（支持分离1 - 10人）情绪识别热词增强版单标点最大字数
实时语音识别	可识别长时间传入的语音流数据，实时返回识别结果，实现“边说边出文字”的效果	200路	实时	智能外呼、人工客服、数字人（虚拟人）、对话机器人、会议实时字幕、游戏内语音识别、直播实时字幕等有实时要求的场景	8k_zh：中文普通话电话通讯 8k_en：英文电话通讯 8k_zh_large：中文、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话 16k_zh_en 中英大模型：中文普通话 + 英语 + 多方言混合引擎，除普通话外支持31种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话、潮汕话、宁波话、无锡话、吴语） 16k_en_large 英文大模型: 英语 16k_multi_lang 多语种大模型：同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别，可实现15个语种的自动识别(句子/段落级别) 16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇 16k_en：英语通用 16k_zh-TW：中文繁体 16k_zh_edu：中文教育 16k_zh_medical：中文医疗 16k_zh_court：中文法庭 16k_yue：粤语 16k_en_game：英文游戏； 16k_en_edu：英文教育； 16k_ja：日语 16k_ko：韩语 16k_vi：越南语 16k_ms：马来语 16k_id：印度尼西亚语 16k_fil：菲律宾语 16k_th：泰语 16k_pt：葡萄牙语 16k_tr：土耳其语 16k_ar：阿拉伯语 16k_es：西班牙语 16k_hi：印地语 16k_fr：法语 16k_de：德语	VAD 检测热词增强版断句检测阈值临时热词表情绪识别
录音文件识别极速版	可对时长2小时以内的录音文件进行识别	20路	准实时说明：通常30分钟音频可在10秒内完成识别	短视频快速生成字幕、快速语音转写质检、新闻语音转写等转写时效性较高的场景	8k_zh：中文普通话电话通讯 8k_en：英文电话通讯 8k_zh_large：中文、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话 16k_zh_en 中英大模型：中文、英语、粤语、四川话、陕西话、河南话、上海话、湖南话、湖北话、安徽话、闽南和潮汕方言 16k_multi_lang 多语种大模型：同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别，可实现15个语种的自动识别(句子/段落级别) 16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇 16k_yue：粤语 16k_en：英语 16k_ja：日语 16k_ko：韩语 16k_vi：越南语 16k_ms：马来语 16k_id：印度尼西亚语 16k_fil：菲律宾语 16k_th：泰语 16k_pt：葡萄牙语 16k_tr：土耳其语 16k_ar：阿拉伯语 16k_es：西班牙语 16k_hi：印地语 16k_fr：法语 16k_de：德语	热词增强版临时热词表单标点最大字数
一句话识别	可对60秒以内的短音频文件进行识别	30QPS	准实时说明：通常30秒音频可在3秒内完成识别	语音输入法、语音消息转文字、语音搜索等短音频场景	8k_zh：中文普通话电话通讯 8k_en：英文电话通讯 16k_zh：中文普通话通用引擎，可识别中文普通话和少量英语词汇 16k_zh_dialect：多方言，支持23种方言（上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话）； 16k_en：英语 16k_zh_medical：中文医疗 16k_yue：粤语 16k_ja：日语 16k_ko：韩语 16k_vi：越南语 16k_ms：马来语 16k_id：印度尼西亚语 16k_fil：菲律宾语 16k_th：泰语 16k_pt：葡萄牙语 16k_tr：土耳其语 16k_ar：阿拉伯语 16k_es：西班牙语 16k_hi：印地语 16k_fr：法语 16k_de：德语	热词增强版临时热词表

语音识别增值产品	适用接口与参数	功能简介	常见应用场景	收费介绍
情绪识别	录音文件识别（目前仅支持 8k_zh、16k_zh、16k_zh_en 引擎，入参 EmotionRecognition）实时语音识别（目前仅支持 16k_zh、16k_zh_en、8k_zh、8k_zh_large 引擎，入参 EmotionRecognition）	情绪识别能力可解析音频中说话人的情绪，支持在文本或返回结构中展示情绪标签，如：高兴、愤怒、伤心等。本功能为额外收费的增值能力，开启参数使用时会进行独立计费，详情请见收费介绍。	服务质量监控、呼叫中心应对、会议氛围监控等场景	本功能为增值服务，与录音文件识别基础产品独立计费，不可叠加或互相抵消。更多计费介绍请见计费概述（在线版）- 情绪识别增值服务。
分段	录音文件识别（目前仅支持 8k_zh、16k_zh 引擎，入参 ResTextFormat 的对应值4）	分段能力可对录音文件识别的识别结果按照语义分段，并展示词级别粒度的详细识别结果。本功能为额外收费的增值能力，开启参数使用时会进行独立计费，详情请见收费介绍。	庭审笔记、会议纪要等场景	本功能为增值服务，与录音文件识别基础产品独立计费，不可叠加或互相抵消。更多计费介绍请见计费概述（在线版）- 分段增值服务。
口语转书面语	录音文件识别（目前仅支持 8k_zh、16k_zh 引擎，入参 ResTextFormat 的对应值5）	口语转书面语功能基于腾讯云大语言模型（LLM），可精简口语表达中的冗余、重复、语气词，并修正发言人口误，实现口语转书面语的效果。本功能为额外收费的增值能力，开启参数使用时会进行独立计费，详情请见收费介绍。	无需人工干预的会议纪要整理场景（例如，在线会议后直接输出会议纪要）	本功能为增值服务，与录音文件识别基础产品独立计费，不可叠加或互相抵扣。更多计费介绍请见计费概述（在线版）- 口语转书面语增值服务。

产品功能

本页目录：

语音识别（ASR）系列

语音识别（ASR）特色功能

热词和自学习定制模型

临时热词表

超级热词

替换词

语音识别 +（ASR+）系列

增值产品系列

产品视频