前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >下一代语音界面:从亚马逊 Echo 看未来的人机交互

下一代语音界面:从亚马逊 Echo 看未来的人机交互

作者头像
新智元
发布2018-03-23 14:55:39
1.7K0
发布2018-03-23 14:55:39
举报
文章被收录于专栏:新智元新智元

【新智元导读】作为Web 2.0概念的提出者之一,著名科技媒体O'Reilly出版社的 CEO Tim O'Reilly 在本文中谈了他对下一代用户界面的思考:亚马逊的Alexa证明,语音交互也能做得很好;但是,对话界面并不能解决所有的AI问题;未来人机交互将会是人与智能代理的交互,应用人性化的设计,将对话分解成更小的域,在这些域内,认真思考如何使用"fit and finish"原则 ,能够让界面直观、交互完整。

(文/Tim O'Reilly)每过一段时间就会出现一种产品,改变人们对用户界面可能性的期待。Mac、万维网和iPhone就是这样。Alexa属于改变游戏规则的精英。Siri尽管引起了新潮流,但是自己却没能克服困难。Google Now和Cortana也没能做到,尽管它们有许多令人惊奇的能力以及不错的使用率。(Mary Meeker报告说,现在移动端的谷歌搜索中有20%是通过语音完成的,而Google Now卡片是每一位安卓用户体验的重要组成部分。)但是,Alexa已经做到很多其他产品没能做到的事情,在我看来,它是对话时代的第一个成功的产品。

让我用与Alexa的一次对话向你解释我为什么会这么说。

我在厨房做饭,双手不得空。“Alexa,播放Hamilton。”“播放Hamilton的原版录音……”“Alexa,声音大一点。”“Alexa,定时播放30分钟”。[当Alexa在回复时,音乐音量减小,但仍听得见。]“定时播放30分钟。” [音量又增大了]......“Alexa,这是什么歌?” [在Alexa回复时音量再次减小,然后又恢复到先前的音量。]“Guns and Ships,演唱者是Leslie Odom, Jr.、 Daveed Diggs、Christopher Jackson,出自Hamilton的百老汇版”……[手机响了。]“ Alexa,暂停播放。” [我赶紧洗手,多希望Alexa是我的手机界面啊!][挂掉电话后。]“Alexa,恢复播放。”“Alexa,还剩多少时间?”“大约还有9分钟50秒。”

这次对话可以表明:

  1. Alexa一直在听,所以完全不用手去操作的。一旦你习惯了对空气说话就能唤醒设备让其回应你,你就会觉得用手指操作屏幕就跟手机没有触摸屏一样奇怪。
  2. Alexa能沉着处理某些情况。我可以“堆叠”多个交互,并且让它较为准确地猜测各个交互分别属于哪一个情境。它知道,“暂停”指的是音乐,而“还剩多少时间?”指的是定时播放。
  3. 我并不需要知道许多可能的交互。我只是猜测这些交互可行,尝试它们,发现它们的确可以做到。例如,当我打电话给一个朋友时,我发现我可以问Alexa现在正在放什么。然后它正确回复我了,除了它自己也不知道正在播放的音乐是什么的时候。
  4. 播放的声音减小,让Alexa在新的交互时回复的声音盖过播放的声音,这一细微的设计体现了“fit and finish”的原则,有助于新的UI范式的发展。

现在,我再来对比与手机上的Google对话交互的情况。

首先,默认情况下,谷歌在大多数手机上都不是实时在听的。你必须点击麦克风图标,把它切换到音频输入。这不仅是一个电源问题——与亚马逊的Echo不同,手机需要考虑电池寿命——还有隐私问题。我曾经与Alphabet的一名高管交谈,我说亚马逊的Echo相当于是从谷歌盗走了一个火种。他回答说,“你能想象如果是谷歌一直监听你的生活,会有多大的影响吗?”他说的有一定的道理。但未来就是这样。有人突破障碍,做到不可思议的事情,然后这件事就会被每个人所接受。我认为,我们现在就处于这样的时候,一直监听的设备已经出现。

至少在我的Nexus 6P,谷歌已经给了始终启用监听模式的选择。苹果在iPhone 6中也让Siri有了这样的功能。但是,在默认设置下监听功能不是开启的,我怀疑它最终会开启。

那么我们先假装我能语音唤醒谷歌,然后再与我的Nexus 6P进行同样的交互。

“好吧,谷歌,播放Hamilton。”“Hamilton是一部关于美国国Alexander Hamilton的音乐剧,音乐、歌词和书的作者是Lin-Manuel Miranda。”[失败。即使是有“播放”这样明显的指令,回复的却是谷歌搜索的结果,没有回复“不在你的音乐库中”。于是,我再试一次。]“好吧,谷歌,播放Bob Dylan。” [打开了Google Play,开始从我音乐库里播放Bob Dylan。] “好了,谷歌,暂停”。好吧,从现在开始,我还是宁愿用触摸屏与它进行交互。

但是,让我在音乐播放时再试试其他可能的操作。“好吧,谷歌,正在播放的歌曲是什么?” “Obviously 5 Believers。”回答正确。但是,一旦谷歌回答了我关于歌曲问题,Google Play就不在前台了。其他的一些应用程序或者模式回答了我的问题。所以,我甚至不能点一下屏幕来暂停或者跳过正在播放的音乐。我必须先回到Google Play的界面。可即使我这样做了,我也无法暂停或停止播放,我的屏幕弹出“Try Unlimited”窗口。我点击“No,Thanks”,然后我才可以看到并按下暂停键。

这真是糟糕的交互设计,把平台提供商的目标置于我之上。但是,即使是没有中间的屏幕,你也可以看到,切换模式(对话代理将控制权交给一个老派的智能手机app)把不必要的复杂性添加进了界面。对话代理需要保持在前台,拦截请求,并将它们转交给相应的app(如果需要的话,将它们翻译成app的语言,这样用户就不必切换模式)。

让我们回到与谷歌的交互中去。音乐正在播放。我可以定时播放吗?“好吧,谷歌,定时播放10分钟。” [音乐完全停止,而时钟应用打开,给我调出了倒数计时器]音乐继续播放,但现在的时钟应用在前台。而当我问:“好吧,谷歌,还剩多少时间?”这个问题既没有转交给Google Play,也没有给时钟。相反,谷歌读给我听有关地球有还能存在多久的计算结果。

我要明确指出:谷歌的基本能力是远远超过Alexa的。我可以问谷歌Alexa不可能会回答的问题。“好吧,谷歌,从我这里去Palo Alto有多远?”“交通很拥挤,所以需要1小时10分钟。”而且,由于其庞大的存储数据量以及我手机上的实时传感器,加上其在AI有最先进的技术,我认为谷歌能够做到很多事情,而这些对于Alexa是不可能的。但正因如此,谷歌应该研究Alexa的对话UI并且赶超它。

人性化的设计,让技术显得更智能

谷歌的语音界面和app之间的的用户交互流程简直是灾难。每一个应用程序都希望拥有控制权,因为语音代理从来没有被授权作为用户体验的指挥者。我被迫在语音和触屏模式之间进行不必要的切换。而当语音代理不知道该怎么办时,它就会经常执行不相关的操作。 (Alexa偶尔也会这么做,但是频率低得多。我宁愿谷歌回复说:“我不知道怎样回答你刚才提的问题。”)

除了创建一个连贯的纯语音交互,Alexa的发明者巧妙地将可能性空间划分为多个域,每个域都有一系列可理解的相关任务和问题,这些都在语音代理的能力范围之内。不同于以“你可以问我任何问题”开始却常常以失败结束的语音代理(Siri),或是试图猜测我可能想要什么却显示出我不需要的信息的代理(Google Now),亚马逊在信息架构上做得很好。让我们深入思考音乐,以及关键交互的设计。那天气呢?厨房定时器?我们可以做些什么来使设备更有趣?(“Alexa,给我讲个笑话。”)Alexa体现出了人性化设计,这使得它表现得比实际上更加智能。

我们将越来越多地设计智能代理界面,而Alexa的发明者为这个时代带来了重要见解。请记住,你的代理基本上是愚蠢的,是人类把它放在已知的情境下,使其有限的能力能足够应对,然后用户可以轻松了解它的功能。

人机交互每隔一段时间就有重大的飞跃。下一代的语音界面就是那些飞跃之一。人类将会与那些能够听懂我们说话、还能回复的设备进行交互(这些设备也将能够看到我们,并根据它们识别的人个性化自己的行为)。它们将能更好地处理各种各样的表达意图,而不是将我们限制在触摸、点击或滑动等定义单一的操作之内。

最近总有人说,对话界面的炒作有些过头了。基于文本消息的机器人平台的创始人Ted Livingston说,“Bot没有对话功能会更好。”

我不同意这种观点。我使用亚马逊Echo Alexa的体验,让我相信相反的观点。当然,Alexa不是chatbot,而是嵌入有特定用途的设备中的一种强大的基于语音的服务。它证明只要设计正确,对话界面是确实可行的。

这让我想问:Alexa将会做什么?

未来的人机交互将是人与智能代理的交互

Alexa让我们体验了一把未来,就像谷歌在世纪之交时所做的那样。当时,我们仍处于大数据时代和云时代的早期,谷歌被看作是一个局外人,专门生产令人惊奇却又游离在行业主流之外的产品。几年过后,谷歌成为主流,改写了游戏规则。

我十年前在所谓Web 2.0方面所做的工作,可以看做是我从谷歌(以及Web应用程序、平台和服务的其他先驱)那里获得的思考。最终,这些经验被视为每一家公司的必修课,一家公司要么改变自己,要么走向灭亡。在当时,Jeff Jarvis写了一本书,叫《What Would Google Do?》(谷歌将带来什么?)书的封面是这样介绍的:“一本在当今互联网驱动的市场上生存和成功不可缺少的手册。”也就是说,如果你不知道谷歌如何成功,那你就完了!而现在,我觉得Alexa也是这样。

如果你正在做家庭消费电子产品——电视机、音乐系统、恒温器、安全系统、WiFi路由器、洗碗机或洗衣机,你应该问自己:Alexa将会做什么?如果你是一名汽车行业的高管,打算把一个大触摸屏安装在即将完成的模型上,而不是专注于语音控制,那你应该问自己:Alexa将会做什么?如果你是一家软件公司,你应该考虑与软件交互的设备在未来将会是对话式的,然后问自己“Alexa将会做什么?”如果你是一家餐厅或者咖啡馆,并且有自己的app让人们提前订购并付款,你应该问“Alexa将会做什么?”

幸运的是,亚马逊不仅为Alexa的用户还为Alexa的开发者提供了一系列工具。App开发人员可以使用Alexa的技能工具箱(Skills Kit)添加“技能”,比如,一旦你添加了Lyft技能,你就可以说:“Alexa,让Lyft给我叫一辆车。”使用Alexa的语音服务,开发人员可以将语音命令添加到自己的应用程序。(谷歌和微软也有语音API。)

不幸的是,亚马逊没有设计API。所以你必须认真研究亚马逊设计Alexa界面的方式,在设计自己的语音应用时,不断地问自己: Alexa将会做什么?保留过多触摸屏时代的思维的设计者,他们没有很好地理解语音界面,很可能建造出糟糕的混合式用户界面,就像我之前使用的谷歌语音助理一样,打消了我想用语音界面使用我安卓手机的念头。

我最近与Facebook的一名高级技术负责人讨论过Alexa将会做什么?我当时指出,Facebook用AI来管理我的动态消息,通过观察我的行为能猜测我最想看到什么样的故事。但是,我并不总是想看同样的事情,我顶多是会想要听一个歌手的其他歌曲,毕竟他的曲目有限。有时候我会想听服务给我选择的音乐,但是我通常有自己的选择。所以,Facebook也是一样,不要试图从我朋友发布的所有消息中决定我想看什么,而是要给我选择表达我自己的意图。

Facebook如果有和Alexa同样的界面,我会说:“Facebook,显示我朋友的更新”,然后AI就会工作,不是去推测我的喜好,而是将个人更新和新故事的链接分开。下一次,我可能会说:“Facebook,显示我朋友发的与政治相关的链接,”或是“Facebook,给我看搞笑视频。”这样的AI是基于我的选择提供服务,而不是试图取代我的选择。

现在,如果我想让Facebook做到以上任何事情,我只能再花一段日子来训练算法,避免点赞或是点击我不想看到的链接类型,而只选择我想要的类型。我还不能随意切换!

Alexa让我们知道,不要试图用对话界面解决所有的AI问题,我们要做的是应用人性化设计智能,将对话分解成更小的域从而可以产生令人满意的结果。而这些域内,花费大量时间思考如何"fit and finish"原则 ,要让界面直观、交互完整。

来源:https://www.linkedin.com/pulse/what-would-alexa-do-tim-o-reilly

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档