前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日进步,不了解人工智能?一篇文章看懂BAT布局的语音识别技术

每日进步,不了解人工智能?一篇文章看懂BAT布局的语音识别技术

作者头像
企鹅号小编
发布2018-01-02 12:59:48
1.2K0
发布2018-01-02 12:59:48
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

目前人工智能热火朝天,语音识别、图像识别、自动驾驶都是热门话题,今天我们就聊聊语音交互需要哪几个环节。现在打着AI旗号的智能产品哪些是用了语音智能交互。

什么是语音交互?如果你是苹果手机,一定调戏过siri,这就是典型的语音智能交互,还有今年双11天猫大卖的天猫魔盒,亚马逊echo,也是通过语音控制家电,属于语音交互的一部分。

最基本的语音交互包括语音识别和对话管理,语音识别是负责让机器理解你说的话,语音合成则是把结果用语音方式播报给你,所以分成两块来说:

语音识别:

人脑在听到一段话时会自动处理翻译成可以理解的意思,但是机器不行,汉语每个发音可能有几十甚至上百个字,所以语音识别不仅要识别你的发音,还要把这一串发音解析成你真正表达的那些字。

这是怎么做到的呢?首先通过声学模型知道你的发音,你可以理解为我们的拼音,然后还需要一个语言模型,它可以根据前后的文字、上下文对话来计算出每个发音最可能的意思。所以有时你会发现,在说第一个字的时候可能屏幕显示A,但是当说完一个词后第一个字会被纠正为B。

语音识别技术的好坏,除了用错误率来衡量,还有使用场景的广泛度,比如智能电视,它只需要听懂你说「换台」「声音」几个关键词,最多加入电视节目的数据就够了,它所需要理解的范围就这么大,你对它说「冰箱」,它识别不了也没什么大不了。

如果轻松理解了语音识别,恭喜你,已经入门人工智能,后面的内容对你来讲就没有难度了!

语音合成:

相比语音识别,语音合成就简单多了,它只需要把生成好的内容用符合人说话音量和节奏的方式输出出来,有个几百万条说话样本做训练,所谓的深度学习会搞定一切,你都不需要了解它是怎么学的!

像是你每日在听的导航,你以为每一句都是林志玲或者郭德纲说的,其实她们只要提供日常说话的数据,其他都是机器合成的。

看到这里似乎你已经了解高大上的语音交互了,但是从语音识别到语音合成,有没有觉得缺少了很重要的一环,就是语义理解和对话管理。

语义理解:

顾名思义就是理解你说的意思,语义理解和语音识别是紧密相连的,同一句话可能有很多不同的含义,在语音识别准确地识别出你的文字后,语义理解还要明确你表达的意思。

如果就是多义词没法理解怎么办?也有办法,就是语意澄清,比如你说「美人鱼」,系统可以通过询问:你是想了解「美人鱼」是什么,还是要看「美人鱼」这部电影?这种方式来澄清问题或者范围。

看到这里你已经了解了80%的知识了,只剩最后一项。

对话管理

对话管理连接了语义理解和语音合成,也就是帮你准备答案的过程。

如果你只是寻求知识,那就像是在百度输入文字搜索答案一样简单,前提是你的背后有类似百度这样的信息存在,且不能向用户播报几百条结果让用户筛选。

但如果是聊天机器人或者智能生活管家这样的角色,它就需要经过大量的学习和训练,了解你每一句话、每一个字的真正需求,并给出方案。这一步到目前为止各个公司都还在努力。毕竟,能通过图灵测试的计算机至今也没多少。

看到这里基本就要结束了,恭喜你在人工智能语音领域超过90%的人,看下面这张图复习一下:

最后小编多说一句,语音识别、语音合成、语义理解、对话管理,它们只是最核心的环节,真的要做一个智能交互助手,你还需要语音唤醒、声纹识别、降噪、声音加强等以适应真实的使用环境,不过作为科普贴这些没那么重要,记得名词的话拿来显摆一下就好啦。

本文来自企鹅号 - 四库全说媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 四库全说媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档