Siri不行了?微软小冰或许是未来的方向

作者 | 阿司匹林

语音助手大战已经进入到白热化的阶段了,除了苹果、亚马逊、Google、微软等国际玩家,国内的百度、阿里、腾讯、天猫也已经纷纷在这个赛道上加快布局,好不热闹。

不论你承认与否,现阶段的语音助手都还处在探索阶段。苹果的 Siri 作为元老,已经很多年没有带给我们惊喜了,而亚马逊虽然 Alexa 风头正盛,但是他们其实也在焦虑,没人敢断定,现在的 Alexa 就一定是语音助手的终极形态。

与此同时,微软却通过小冰向大家展示了另外一种可能性——基于 Session-oriented 基础框架的对话 AI 系统。

▌什么是 Session-oriented?

小冰负责人李笛表示,对话式 AI 基础框架的理念之争正在发生变化。目前,以苹果 Siri 为代表的语音助手都是基于 Turn-oriented 框架,只有微软小冰是采用的 Session-oriented 框架。

如何理解这两个框架?

Turn-oriented:这种框架主要是面向单个任务,每一次对话就像是一个“十字路口”,它的中心就像是这个路口中间指挥交通的“民警”。每当你发出一个指令,他就会把你迅速引导到目的地,当这个任务完成之后,他会把你拉回这个十字路口的中心,一切归零,再循环上述的过程。如果他没有办法把你引导到目的地,那么就会通过搜索引擎提供搜索协助。这个框架已经发展 20 年了,虽然可以在某些场景下迅速完成某个任务,但是却没有办法进行很好的对话。

Session-oriented:这个框架主要是面向对话全程。基于这个框架的对话就像“河流”一样,从一个 turn 往下一个 turn 走,这个 turn 可能跟任务有关,但是这个任务之后可能会进入到进一步的交流,而进一步的交流有可能引发出新的任务,然后再随着新的任务引发一些知识的了解,然后这样流转下去。当我们关注整个 Session 的时候,那么整个 Session 的质量高低都要优于任何一个单一任务完成的质量高低。

▌全双工语音交互

虽然李笛宣称 Session-oriented 有很大的优势,但是口说无凭,用户体验才是最重要的。

去年下半年,微软开始与小米生态链企业 Yeelight 合作,将小冰内置在了 Yeelight 的智能音箱之上。与此同时,在微软内部打磨了一年半的全双工语音技术也首次出现在大众视野。具体的体验视频可以参考AI科技大本营此前的评测文章:

而这个全双工语音交互感官就是 Session-oriented 框架的最后一环,在此之前的所有感官,都是 Turn-oriented 的。李笛称,目前国内的对话式 AI 系统都不能算是全双工,最多算半双工。

什么全双工语音交互?

一次唤醒就可以连续对话,不用每次对话都要唤醒词,这是普通用户最直接的感知,它可以理解为流式交互、连续交互、实时交互、双向交互,是 EQ 和 IQ 的结合。不过,它与目前的多轮交互、持续聆听、免唤醒词有着本质上的不同。

近日,微软小冰的首席架构师周力就首度公开了全双工语音交互背后几大技术支撑。

边听边想:通过预测模型,小冰不会再等到一句话说完,再进行语音识别,然后再处理如何回复,而是没有、听到一个字,就会提前预测用户的完整意思,提前开始“思考”回应;此外,小冰还会根据预估的思考时间、复杂任务的完成时间,有选择地将回答拆解为多段,而不再是用户输入一条,系统回答一条,这样可以减少用户感知的等待时间。

通过预测模型,我们可以让回答更加迅速,而且会有不一样的互动,因为在全双工中,不再拘泥于我要回消息,系统就可以使用更好的策略,让对话变得更加流畅。

节奏控制器:在全双工的对话中,节奏就会变得非常的重要。用户每一句话的重要性并不一样,因此需要采取不同的策略,与自己协调,与人类协调,甚至与其他语音助手协调,来判断是继续倾听,还是回复,甚至抛出新话题等等。

声音场景的理解:在全双工语音交互中,环境的处理同样重要。传统意义上的语音识别是通过其中一段语言识别其中对应的文字,但全双工场景实现的理解不止如此,它包括了分类器、环境处理、对象判断。

其中分类器主要用来识别用户的身份和情绪,以及环境中的音乐,而环境处理则主要涉及背景噪声识别、回声消除、动态音量识别与调整等等,至于对象判断则主要是用来进行声纹识别,针对不同用户,提供不同的服务,不过目前声纹识别还在内测中。

自然语言理解与生成模型:与微信小冰用的检索模型不同,全双工版的小冰用的是生成模型,通俗的解释就是,后者的每一句话都是自创的。利用这种技术,系统可以实现更好的容错性,并且可以基于时间、整个对话的内容、以及用户的意图,来动态决定是否主动结束整个 Session。

周力表示,生成模型本身本身更适于一种引流性交互的模式。因为第一个词出来的时候,系统已经开始生成对应的语音音频了。而且生成的模型也可以帮助对整个场景的理解,而且还可以去判断什么时候这个对话应该结束了,这个如果是用传统的形式,或者用搜索的技术,很难达到这样的效果,也很难作出这样的判断。

▌Siri 们和小冰的未来

李笛表示,国内人工智能整体的发展更像在堆积木,而没有特别多探索到底层框架的设计。从全球的范围来看,大家已经开始逐渐向 Session-oriented 的方向再转,为什么?

“Turn-oriented 的上限决定了语音助手未来的发展空间。”

在李笛看来,现在的 AI Speaker(AI 音箱),相当于原来用遥控器去遥控的 Siri,现在改为用语音交互命令去遥控她,并没有完成更多的增值,也没有给人工智能留下多大的空间。因为框架决定了,她在未来的拓展性比较低。

李笛称,苹果最近也在考虑是不是要把 Siri 原来的框架废止掉,然后切换到一个新的框架上。“如果我们仅仅是针对一两个功能、技能,或者是一些知识图谱去做调整的话,不需要废掉原来的框架,这实际上是技术底层框架发生很大的改变。”

虽然这么说,但是 Alexa 凭借着上万种 Skills(技能)引发了效仿的热潮。虽然小冰在 Yeelight中没内置如此多的技能,不过周力表示,他们并不担心。

“真正重要的并不是说有 100 个、1000 个功能,而是我用起来到底费劲不费劲,如果费劲的话,你有再多的功能,我可能尝试一下之后,也不太会经常用。但如果你的交互变得很自然,哪怕功能很少,我可能也会经常去用,每天都会去用,甚至像我们天天用手机一样。”

而就在去年下半年,亚马逊为 Alexa 举办了一场竞赛,赛题是:建立一个社交机器人,这台机器人要能够与人类进行交流,并对热门话题持续讨论 20 分钟。

李笛认为,这是亚马逊在探索从 Turn-oriented 转向 Session-oriented 标志。

据悉,微软还会为小冰增加视觉交互的功能,与全双工语音交互一起形成完整的 Session-oriented 框架。但是这个框架是不是就是对话式 AI 系统的终极框架呢?李笛并没有盲目乐观。

“实际上,我们也一直是在类似纠结的过程中。我们在一个领域里领先的时候,我们很害怕,因为底层框架或者一些技术严重滞后的原因,突然出现一种新的框架,它的发展空间比我们的发展空间高,那我们就没有办法再追了,这是很重要的一件事情。”

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-04-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

谷歌发布美国语音搜索使用习惯报告

240100
来自专栏姬小光

前端工程师的核心价值 @2018

作为一个还算资深的前端工程师,我也时常在思考自身的价值到底在何处。网上每年都有许多关于前端工程师这个岗位的讨论,其之所以如此激烈,或因该岗位本身无法明确定义,故...

17530
来自专栏Keegan小钢

小钢的架构思考:架构规划

上一篇简单聊了下什么是架构,还将架构划分为三个阶段:规划阶段、设计阶段和构建阶段,构建阶段其实也是架构实现的阶段。其实,三个阶段的界限并不明显,而占比最多的是设...

12460
来自专栏即时通讯技术

写给小白的实时音视频技术入门提纲

这是由一篇我的演讲稿整理出来的文章,目标读者是对实时音视频开发感兴趣但是又不知道如何下手的初学者们,希望把我的经验分享出来,对大家有所帮助。

92130
来自专栏IT 指南者专栏

我对软件工程这门课的理解

微信公众号:compassblog 欢迎关注,互相学习,共同进步! 有任何问题,请后台留言联系! 阅读本文大概需要 2.3 分钟 谈谈自己对软件工程这么课的理解...

49680
来自专栏顾宇的研习笔记

云原生 DevOps

技术雷达是ThoughtWorks每年出品两期的技术趋势报告,新一期即将在5月15日正式发布。本人有幸第三次参与技术雷达的汉化发布工作,并借此机会一览技术前沿的...

22410
来自专栏BestSDK

神策数据分析SDK全面支持小程序,打造一站式PaaS + SaaS服务

在iPhone十周年之际,在众多互联网人的朋友圈里发酵月余的小程序,正式席卷而来。作为企业,如何应对小程序的访问用户“凌波微步”来去无痕?数据驱动理念该如何实现...

39940
来自专栏web前端教室

可以为未来的事计划,但不为未来的事担心

image.png ---有好多时候,我担心的的事情,其实并未发生。。。 一直以来,我用的最多,甚至是唯一的JS框架,就是jQuery,其它的前端框架一直在关注...

189100
来自专栏社区的朋友们

敏捷项目管理之需求管理

在近几年比较火的敏捷开发大背景下,我们的项目团队的需求管理,也一直在探寻着敏捷开发的轻量化管理的原则。本文主要谈谈,咱们浏览器项目需求管理那些事 。

1.7K00
来自专栏腾讯社交用户体验设计

聊出一个未来 - 腾讯ISUX

11030

扫码关注云+社区

领取腾讯云代金券