人工智能语音进化史三部曲

关于人工智能诞生没有统一说法,有部分学者以1950年“人工智能之父”马文·明斯基建造世界上第一台神经网络计算机为起点。且以当年语音交互起始到现在,大致经历三段演化和推进。让我们一起回顾整个过程,来看一下人工智能语音发生的几次技术跃进。

人工智能语音1.0:一问一答

现在,工智能语音技术在数码、电子、工业制造领域被广泛应用并且成为全民热议的话题,可是在发展之初它还有很多稚嫩的地方。关于人工智能时代的讨论有很多,但在消费层面上,真正大范围进入用户试用阶段的人工智能语音应用大概在2010年之后。这个阶段的人工智能语音技术形成了以语音交互为主的感知状态,我们暂且称之为第一阶段。

这时的人工智能语音应用通过算法的演变和大量数据的输入,在技术层面实现自然语音识别和语义理解,针对对话内容进行数据匹配,然后调取相关话题,从而实现简单内容的单向一问一答。第一阶段在自我学习、逻辑推力方面有很大欠缺,不能针对同一对话内容展开深入交互,横向拓展和纵向发展都不能满足用户需求。例如你问今天天气如何?他调取今天的天气数据。接着你问明天的天气如何?他调取明天的天气预报。今天天气和明天天气只是各自独立的对答,不能连接贯通,形成逻辑。

关于人工智能语音技术的研究,国外企业投入较早,且发展也比较全面。像Nuance,曾经在语音识别方面功绩卓著,到现在为止仍然是全球最大的语音技术公司,专利数量和市场份额都遥遥领先。之后包括亚马逊、苹果和谷歌,都在深度挖掘智能语音,推出自己的语音助手。据不完全统计,目前全球专业做人工智能语音的公司有上千家之多,后起之秀越来越多,涉及的领域越来越广。如总部位于奥地利维也纳的Cortical.io,主要提供新型自然语言理解(NLU)解决方案。由艾伦人工智能研究所和亚马逊Alexa基金等机构资助KITT.AI公司,开发可定制热词检测器(hotword detector)和对话引擎ChatFlow。旧金山的MindMeld公司可提供对话式人工智能平台等等。

人工智能语音2.0:有问有答

早在2000年,比尔盖茨曾经提出“未来10年是语音的时代”。我们目前所说的智能语音,学术界称为“自然语言处理”(来自百度)。业内人士认为,智能语音技术将会成为人类主流的人机交互方式之一,计算机技术与人工智能领域的发展为智能语音交互发展带来了希望。

人工智能语音交互的更深层阶段——对话,即有问有答,包含上下文逻辑。举个例子或许更好理解,如果一门课程上一年没开设,对于“这门课程去年有多少同学没通过”这样的问题,机器是回答“都没通过”还是“去年没开这门课”?同时机器还需要提前存储“去年没开这门课”的信息,想想我们从小时候啥也不懂到现在懂得的知识和信息,这是难以想象的数据量。再比如说“我想听周杰伦的歌”,机器只会将周杰伦的歌显示出来,并不能直接播放。就是说假如你要做一件事情,需要给机器一个明确的指令,否则,会让人很烦躁,因为你要一直说下去。

当然,“对话”层面,仍然停留在“人机对话”阶段,机器仍然停留在被动接受人类输入大量数据阶段,相比“问答”层面,只不过信息流、数据存储量更大,机器仍然不能更深层次理解人的意思,无法实现自学习、自成长,与机器的语音交流还不能像人一样自然。

人工智能语音3.0:自然交互

人工智能进入第三阶段,最大的进展就是交互的进展。不仅仅有问有答,不仅仅包含上下文逻辑了,人工智能硬件能够更多地融合各种环境信息,作出不同决策或推荐。也就说,在交互的过程中,机器有了更多的主动性,能够为人提供更多、更好的帮助,让人们的生活更便捷,更安全,更有趣。

有两个比较典型的应用场景,一个是智能汽车,一个是智能家居。

2010年,谷歌秘密研究的无人汽车项目被《纽约时报》记者曝光,当时引起了不小的震动。无人汽车即无人驾驶汽车,也叫智能汽车,主要是通过车载传感系统感知道路环境,并依靠车内的人工智能系统自动规划行车路线,到达预定目的地。

谷歌无人驾驶汽车在开放道路上行驶时,会对来往车辆、行人,路面环境信息进行识别与分析,为系统的决策判断提供依据。系统经过长期的“学习”后,人工智能具备的策略神经元将变得更加熟练高效,并形成类似于人的“感觉”,能及时处理驾驶过程中的突发情况。

2016年1月,美国国家公路安全交通管理局(NHTSA)在其网站上发布了公开信,表示根据联邦政府现行法律规定,谷歌的无人驾驶汽车采用的人工智能系统可以被视为“司机”。这被视为是人工智能发展里程碑的事件,也标志着“智能”可以像“人工”一样感知、判断、推理并做出决策,可以实现主动控制,也能更好地人机交互与协同。

在智能家居领域,人工智能的发展方向同样是人机交互、操作简单、通过大数据能够进行自主判断决策。长虹前不久推出了人工智能电视新品Q5K,主打语义理解和模糊搜片。不需要绝对明确的指令,人工智能电视能识别和理解用户的语义。比如当用户说“太暗了”时,电视能理解那是什么意思并知道该怎么做,而不是非得等用户说出“调高亮度”。再比如,最近热播的一部电视剧《那年花开月正圆》,名字太长很多人记不住,但只要你说“我想看花开月圆”,长虹人工智能电视也能找到这部片。如果连这几个字都记不住,说“我想看陈晓的电视剧”,它也会根据热播影视数据推荐出这部片来。甚至于说到“我想看陈妍希老公的电视剧”,这台电视也能理解,你所说的八成就是这部由陈晓主演、最近热播的《那年花开月正圆》,并为你播放出来。

这就相当于机器真正有了“大脑”,从而可以感知,交互,理解和决策。因此,也就能够更好地为人类服务了。

本文来自企鹅号 - 岁月如歌儿媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据科学】需求高涨的数据科学家

从技术方面来看,硬盘价格下降,NoSQL数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外,像Hadoop这样能够在通用性服务器上工...

3248
来自专栏企鹅号快讯

AI时代和你竞争的是人而不是机器人

说说那个经典的笑话,两个人在森林里发现了一头狗熊,于是准备逃命。一个人蹲下来系鞋带,另一个人奇怪地问,你再系鞋带能跑得过狗熊吗?第一个人说,我不用跑过狗熊,我跑...

1995
来自专栏一名叫大蕉的程序员

元认知的一点点片言只语 No.87

If not me , who ? If not now , when ? 最近逐渐发现,认知是一件很好玩很好玩的东西。它有时候能助你跃迁,有时候也能拖住你,...

3408
来自专栏BestSDK

【SDK精选】逸创云客服叶翔:企业为什么要重视服务,还不明白么?

智选SDK为广大开发者推荐当下实用好玩的SDK,帮助开发者创造出有影响力的产品。每周一款精选SDK分布于社交分享、设计开发、云服务、支付平台等领域,分享激发创意...

2417
来自专栏量子位

“哇靠”,小米最AI手机MIX 2S发布了

他曾信誓旦旦表示全面拥抱AI。如今,就是一个交卷的时刻。有AI加持的小米是怎样的体验?看惯了大风大浪的雷军都不由感叹:变化真是一日千里!

922
来自专栏罗超频道

何谓新媒体? ——以虎嗅网和钛媒体为例

附注:本文为杂志约稿,写于约1个月前,与前几天围绕新媒体的争论无关。内容为个人观察分析,未经当事人确认。 11月8日的记者节,风生水起的商业科技新媒体虎...

38210
来自专栏新智元

百度、酷我之后再创业,雷鸣要用智能机器人改变教育

当一个人有了孩子后,整个人生活重心都变了,雷鸣也不例外。自从有了孩子,他就开始格外关注小孩子的教育问题,作为一个技术大咖,雷鸣再一次陷入了思考:“科技能给教育带...

43510
来自专栏杨熹的专栏

《不会被机器替代的人》:智能时代的生存策略

一开始人们以为,高级的脑力劳动不会被替代,比如医生、律师,可是现在医生、律师的活都可以干,而且比人的效率高很多。

911
来自专栏数据猿

想成为大数据人才,就不要当这十种人

<数据猿导读> 如今,数据科学家已是炙手可热,那些曾经对其毫无所知的企业,眼下也开始在全世界搜寻最好的数据科学家。问题在于,优秀数据科学家的标准是什么?和其他东...

2744
来自专栏机器人网

如何成长为卓越的工程师

贝尔实验室由全世界最好的大学中聘用了最优秀,最聪明的毕业生,然而,最后只有少数的人真正发挥他们的潜力而成为卓越的工程师。大部分的新进人员发展成可以稳定地完成任务...

2503

扫码关注云+社区