开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >AI语音交互领域常用的4个术语

AI语音交互领域常用的4个术语

曼孚科技

修改于 2019-12-05 18:11:18

1.2K0

修改于 2019-12-05 18:11:18

举报

文章被收录于专栏：曼孚科技

语音交互是基于语音输入的新一代交互模式，比较典型的应用场景是各类语音助手。

本文整理了语音交互领域常用的4个术语，希望可以帮助大家更好地理解这门学科。

1. 语音合成标记语言(SSML)

语音合成标记语言的英文全称是Speech Synthesis Markup Language，这是一种基于XML的标记语言，可让开发人员指定如何使用文本转语音服务将输入文本转换为合成语音。与纯文本相比，SSML可让开发人员微调音节、发音、语速、音量以及文本转语音输出的其他属性。SSML可自动处理正常的停顿(例如，在句号后面暂停片刻)，或者在以问号结尾的句子中使用正确的音调。

2. 语音识别技术(ASR)

若要实现机器与人类的对话，就要经过三个步骤：听懂、理解与回答。语音标注技术的目标就是将人类语音中的词汇内容转换为计算机可读的输入。语音识别技术可分为以下四个流程：

目前，手机里的语音助手是语音识别技术最典型的应用之一。

3. 音素(phone)

音素是根据语音的自然属性划分出来的最小语音单位，通俗点来说其实就是人在说话时，能发出最最最最短小、简洁的不能再分割的发音。不同的音素就是不同的短发音，可以组成不同的长发音，再组成词句形成语言。

4. 语音合成(TTS)

语音合成是通过机械的、电子的方法产生人造语音的技术。通俗点来说，语音合成就是让机器模仿人类说话。即输入一段文字，最终输出一段语音。语音合成技术目前主要应用在读书软件、导航软件、对话问答系统等领域。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文系转载，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

语音合成

语音合成（Text To Speech，TTS）满足将文本转化成拟人化语音的需求，打通人机交互闭环。提供多场景、多语言的音色选择，支持 SSML 标记语言，支持自定义音量、语速等参数，让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。

产品介绍产品文档

录音文件识别、一句话识别等多款语音产品新用户14.9元起