语音识别(ASR)系列
腾讯云语音识别(ASR)系列产品共包含以下五个子产品:录音文件识别、实时语音识别、录音文件识别极速版、一句话识别 和 语音流异步识别。提供腾讯云语音识别基础的 AI 语音转文字能力。这些产品均以接口形式(PaaS 级)提供产品服务。
语音识别 基础产品 | 功能简介 | 免费并发路数 / QPS 额度 | 时效性 | 常见应用场景 | 支持语种(算法引擎) | 特色功能 |
可对时长5小时以内的录音文件进行识别 | 接口限频:20次/秒(异步回调产品,仅限制接口请求频次) | 非实时 说明:异步回调,最长在3小时内完成识别,大多数情况下1小时音频约3分钟以内完成识别(半小时内发送超过1000小时录音或者2万条识别任务的除外) | 呼叫中心语音转写、庭审数据录入、会议转写、直播语音转写质检、课堂语音内容转写等时效性要求不高的场景 | 8k_zh:中文普通话电话通讯 8k_en:英文电话通讯 8k_zh_large:中文普通话 16k_zh_en 中英大模型:中文、英语、粤语、四川话、陕西话、河南话、上海话、湖南话、湖北话和安徽话 16k_zh_large 普方英大模型:中文普通话 + 英语 + 多方言混合引擎,除普通话外支持27种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话) 16k_multi_lang 多语种大模型:同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别,可实现15个语种的自动识别(句子/段落级别) 16k_zh:中文普通话通用引擎,可识别中文普通话和少量英语词汇 16k_en:英语通用 16k_yue:粤语 16k_zh-TW:中文繁体 16k_zh_medical:中文医疗引擎 16k_ja:日语 16k_ko:韩语 16k_vi:越南语 16k_ms:马来语 16k_id:印度尼西亚语 16k_fil:菲律宾语 16k_th:泰语 16k_pt:葡萄牙语 16k_tr:土耳其语 16k_ar:阿拉伯语 16k_es:西班牙语 16k_hi:印地语 16k_fr:法语 16k_de:德语 | 说话人分离(支持分离1 - 10人) 情绪识别 热词增强版 单标点最大字数 | |
可识别长时间传入的语音流数据,实时返回识别结果,实现“边说边出文字”的效果 | 200路 | 实时 | 智能外呼、人工客服、数字人(虚拟人)、对话机器人、会议实时字幕、游戏内语音识别、直播实时字幕等有实时要求的场景 | 8k_zh:中文普通话电话通讯 8k_en:英文电话通讯 8k_zh_large:中文普通话 16k_zh_en 中英大模型:中文、英语、粤语、四川话、陕西话、河南话、上海话、湖南话、湖北话和安徽话 16k_zh_large 普方英大模型:中文普通话 + 英语 + 多方言混合引擎,除普通话外支持27种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话) 16k_en_large 英文大模型: 英语 16k_multi_lang 多语种大模型:同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别,可实现15个语种的自动识别(句子/段落级别) 16k_zh:中文普通话通用引擎,可识别中文普通话和少量英语词汇 16k_en:英语通用 16k_zh-TW:中文繁体 16k_zh_edu:中文教育 16k_zh_medical:中文医疗 16k_zh_court:中文法庭 16k_yue:粤语 16k_en_game:英文游戏; 16k_en_edu:英文教育; 16k_ja:日语 16k_ko:韩语 16k_vi:越南语 16k_ms:马来语 16k_id:印度尼西亚语 16k_fil:菲律宾语 16k_th:泰语 16k_pt:葡萄牙语 16k_tr:土耳其语 16k_ar:阿拉伯语 16k_es:西班牙语 16k_hi:印地语 16k_fr:法语 16k_de:德语 | VAD 检测 热词增强版 断句检测阈值 临时热词表 情绪识别
| |
可对时长2小时以内的录音文件进行识别 | 20路 | 准实时 说明:通常30分钟音频可在10秒内完成识别 | 短视频快速生成字幕、快速语音转写质检、新闻语音转写等转写时效性较高的场景 | 8k_zh:中文普通话电话通讯 8k_en:英文电话通讯 8k_zh_large:中文普通话 16k_zh_en 中英大模型:中文、英语、粤语、四川话、陕西话、河南话、上海话、湖南话、湖北话和安徽话 16k_zh_large 普方英大模型:中文普通话 + 英语 + 多方言混合引擎,除普通话外支持27种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话、闽南语、客家话、粤语、南宁话) 16k_multi_lang 多语种大模型:同时支持英语、日语、韩语、阿拉伯语、菲律宾语、法语、印地语、印尼语、马来语、葡萄牙语、西班牙语、泰语、土耳其语、越南语、德语的识别,可实现15个语种的自动识别(句子/段落级别) 16k_zh:中文普通话通用引擎,可识别中文普通话和少量英语词汇 16k_yue:粤语 16k_en:英语 16k_ja:日语 16k_ko:韩语 16k_vi:越南语 16k_ms:马来语 16k_id:印度尼西亚语 16k_fil:菲律宾语 16k_th:泰语 16k_pt:葡萄牙语 16k_tr:土耳其语 16k_ar:阿拉伯语 16k_es:西班牙语 16k_hi:印地语 16k_fr:法语 16k_de:德语 | 热词增强版 临时热词表 单标点最大字数 | |
可对60秒以内的短音频文件进行识别 | 30QPS | 准实时 说明:通常30秒音频可在3秒内完成识别 | 语音输入法、语音消息转文字、语音搜索等短音频场景 | 8k_zh:中文普通话电话通讯 8k_en:英文电话通讯 16k_zh:中文普通话通用引擎,可识别中文普通话和少量英语词汇 16k_zh_dialect:多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话); 16k_en:英语 16k_zh_medical:中文医疗 16k_yue:粤语 16k_ja:日语 16k_ko:韩语 16k_vi:越南语 16k_ms:马来语 16k_id:印度尼西亚语 16k_fil:菲律宾语 16k_th:泰语 16k_pt:葡萄牙语 16k_tr:土耳其语 16k_ar:阿拉伯语 16k_es:西班牙语 16k_hi:印地语 16k_fr:法语 16k_de:德语 | 热词增强版 临时热词表 |
语音识别(ASR)特色功能
热词和自学习定制模型
腾讯云语音识别(ASR,Automatic Speech Recognition)产品除了适用于通用场景外,在多个垂类场景(如:智能外呼、法庭、游戏、医疗、教育、直播等)进行了大量训练,能够满足不同业务的识别需求,腾讯云语音识别所提供的多套模型的识别性能得到内外部用户的一致认可。
对于部分特殊的业务场景,尤其是原创用语、创新用语、新热度词句、生僻用语组合等可能影响识别性能的情况,我们提供了 热词、替换词 和 自学习定制模型 三种方案,供客户自助对特殊场景进行 ASR 效果优化。
临时热词表
对于单次请求有大量热词需求的用户(例如,开放热词功能给到 C 端用户的情况),我们提供了临时热词表的方案。临时热词表无需事先创建热词表,在每次请求时直接传入临时热词表,云端不会保留每次传入的临时热词表。
临时热词表限制:多个热词用英文逗号分隔,最多128个热词。
参数示例:“腾讯云|10,语音识别|5,ASR|10”
超级热词
超级热词的效果:超级热词对词表相关内容识别准确率相比通用热词有极大提升。
超级热词的使用方法:创建热词表或每次请求直接传入临时热词表时,若热词权重设置为11,热词将升级为超级热词。但建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率。
参数示例:“腾讯云|11”
替换词
配置了热词后仍效果不好,可使用 替换词功能。替换词的逻辑是强制将识别错误的文本替换为正确的。添加替换词可以显著提升通用引擎在这类专有词汇上的识别准确率。支持的子产品:实时语音识别、录音文件识别、录音文件识别极速版。
语音识别 +(ASR+)系列
腾讯云语音识别 +(ASR)系列产品目前包含以下两个子产品:说话人识别、虚拟号真人判定。提供基于语音转文字能力的垂类场景独立接口服务。这些产品均以接口形式(PaaS 级)提供产品服务。
增值产品系列
语音识别增值产品是指用户在使用 语音识别(ASR)系列 产品时,针对某些参数和功能需要额外进行收费的功能。这些功能在常规的语音转文字能力之外,能够解析更多的音频信息,可极大提升客户的使用体验。客户可根据实际需要选择是否需要开启产品的增值功能。
语音识别 增值产品 | 适用接口与参数 | 功能简介 | 常见应用场景 | 收费介绍 |
(目前仅支持 8k_zh、16k_zh 引擎,入参 EmotionRecognition) | 情绪识别能力可解析音频中说话人的情绪,支持在文本或返回结构中展示情绪标签,如:高兴、愤怒、伤心等。 | 服务质量监控、呼叫中心应对、会议氛围监控等场景 | 本功能为增值服务,与录音文件识别基础产品独立计费,不可叠加或互相抵消。 | |
(目前仅支持 8k_zh、16k_zh引擎,入参 ResTextFormat 的对应值4) | 分段能力可对录音文件识别的识别结果按照语义分段,并展示词级别粒度的详细识别结果。 |
庭审笔记、会议纪要等
等场景 | ||
(目前仅支持 8k_zh、16k_zh 引擎,入参 ResTextFormat 的对应值5) | 口语转书面语功能基于腾讯云大语言模型(LLM),可精简口语表达中的冗余、重复、语气词,并修正发言人口误,实现口语转书面语的效果。 | 无需人工干预的会议纪要整理场景(例如,在线会议后直接输出会议纪要) |
产品视频