每日进步，不了解人工智能？一篇文章看懂BAT布局的语音识别技术

企鹅号小编

发布于 2018-01-02 12:59:48

1.3K0

发布于 2018-01-02 12:59:48

文章被收录于专栏：企鹅号快讯

目前人工智能热火朝天，语音识别、图像识别、自动驾驶都是热门话题，今天我们就聊聊语音交互需要哪几个环节。现在打着AI旗号的智能产品哪些是用了语音智能交互。

什么是语音交互？如果你是苹果手机，一定调戏过siri，这就是典型的语音智能交互，还有今年双11天猫大卖的天猫魔盒，亚马逊echo，也是通过语音控制家电，属于语音交互的一部分。

最基本的语音交互包括语音识别和对话管理，语音识别是负责让机器理解你说的话，语音合成则是把结果用语音方式播报给你，所以分成两块来说：

语音识别：

人脑在听到一段话时会自动处理翻译成可以理解的意思，但是机器不行，汉语每个发音可能有几十甚至上百个字，所以语音识别不仅要识别你的发音，还要把这一串发音解析成你真正表达的那些字。

这是怎么做到的呢？首先通过声学模型知道你的发音，你可以理解为我们的拼音，然后还需要一个语言模型，它可以根据前后的文字、上下文对话来计算出每个发音最可能的意思。所以有时你会发现，在说第一个字的时候可能屏幕显示A，但是当说完一个词后第一个字会被纠正为B。

语音识别技术的好坏，除了用错误率来衡量，还有使用场景的广泛度，比如智能电视，它只需要听懂你说「换台」「声音」几个关键词，最多加入电视节目的数据就够了，它所需要理解的范围就这么大，你对它说「冰箱」，它识别不了也没什么大不了。

如果轻松理解了语音识别，恭喜你，已经入门人工智能，后面的内容对你来讲就没有难度了！

语音合成：

相比语音识别，语音合成就简单多了，它只需要把生成好的内容用符合人说话音量和节奏的方式输出出来，有个几百万条说话样本做训练，所谓的深度学习会搞定一切，你都不需要了解它是怎么学的！

像是你每日在听的导航，你以为每一句都是林志玲或者郭德纲说的，其实她们只要提供日常说话的数据，其他都是机器合成的。

看到这里似乎你已经了解高大上的语音交互了，但是从语音识别到语音合成，有没有觉得缺少了很重要的一环，就是语义理解和对话管理。

语义理解：

顾名思义就是理解你说的意思，语义理解和语音识别是紧密相连的，同一句话可能有很多不同的含义，在语音识别准确地识别出你的文字后，语义理解还要明确你表达的意思。

如果就是多义词没法理解怎么办？也有办法，就是语意澄清，比如你说「美人鱼」，系统可以通过询问：你是想了解「美人鱼」是什么，还是要看「美人鱼」这部电影？这种方式来澄清问题或者范围。

看到这里你已经了解了80%的知识了，只剩最后一项。

对话管理

对话管理连接了语义理解和语音合成，也就是帮你准备答案的过程。

如果你只是寻求知识，那就像是在百度输入文字搜索答案一样简单，前提是你的背后有类似百度这样的信息存在，且不能向用户播报几百条结果让用户筛选。

但如果是聊天机器人或者智能生活管家这样的角色，它就需要经过大量的学习和训练，了解你每一句话、每一个字的真正需求，并给出方案。这一步到目前为止各个公司都还在努力。毕竟，能通过图灵测试的计算机至今也没多少。

看到这里基本就要结束了，恭喜你在人工智能语音领域超过90%的人，看下面这张图复习一下：

最后小编多说一句，语音识别、语音合成、语义理解、对话管理，它们只是最核心的环节，真的要做一个智能交互助手，你还需要语音唤醒、声纹识别、降噪、声音加强等以适应真实的使用环境，不过作为科普贴这些没那么重要，记得名词的话拿来显摆一下就好啦。

本文来自企鹅号 - 四库全说媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 四库全说媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度