前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【深度】亚马逊Alexa称霸CES,语音计算平台仍面临这5大技术挑战

【深度】亚马逊Alexa称霸CES,语音计算平台仍面临这5大技术挑战

作者头像
新智元
发布2018-03-26 17:45:17
1.2K0
发布2018-03-26 17:45:17
举报
文章被收录于专栏:新智元

【新智元导读】亚马逊的Alexa在CES上的大获成功让关于智能语音的话题再次被业界广泛谈起。低调的亚马逊似乎已经在这一潜力巨大的市场上完成了布局。大家的共识是, 智能语音助理将成为下一代计算平台,在国外,目前这一市场竞争已经呈白热化,虽然亚马逊 独占鳌头,但谷歌、微软和苹果也不是没有机会。可以看到,虽然市场争夺战异常激烈,但是语音要成为智能时代全新的操作系统,在语音识别、自然语言理解、用户界面设计乃至安全隐私方面都还存在急需解决的难题。本文带来智能语音市场、技术两方面的深入解析。

2017年的 CES上,亚马逊 Alexa 大放异彩,成为“最大赢家”。亚马逊以Alexa和Echo为代表的智能语音系统,已经悄悄地占据了这一各大互联网公司必争之地的“下一代计算平台”之争的有利位置。

语音市场的巨大潜力在于对话。对话经济(Conversational Economy)通常被定义为主要用对话计算界面(conversational computing interface)构建的公司和产品的集合。它包括:1)即时通讯软件,2)语音控制计算,3)聊天机器人及服务(内置于即时通讯软件或语音控制硬件中)。

这个下一代的软件的核心技术要素被称为“4M”,即:

  • 摩尔定律(Moore’s Law ):成本更低的计算能力能够实现以前非常昂贵的计算任务。
  • 多租户架构(Multitenancy):按需公共云提供商显著降低了构建和扩展新服务的成本和复杂性。
  • 机器学习(Machine Learning):机器学习的进展(尤其是深度学习算法)已经被证明在解决传统编程上非常难的问题是非常有效,例如“智能代理”服务底层的自然语言处理技术。
  • 移动数据(Mobile Data):智能手机上收集的非常丰富、实时的数据为 ML 提供了自动用户上下文(automatic user context)信息和足够的数据。

“嗨Siri,你知道音频接口的未来在哪里吗。”

虽然以Siri的智慧程度现在还无法回应,但是以Siri为代表的智能设备会在2017年以实质性的科技进步作出回应。现在,人们还是每天200次地打开手机来实现各种操作;但是很快,语音会成为是环境计算的门户,具有极大发展空间。

2017年是语音成为主流“操作系统”的年份,第一因为我们有“足够好”的语音识别,第二因为语音硬件大规模的使用,第三作为大公司在建立语音平台生态上花了大力气(比如亚马逊,苹果,谷歌,微软,还有中国的百度、讯飞)。

人们正在创造迷人的新硬件计算节点和语音本地应用程序。语音将减少我们在数据输入上花费的努力,支持残疾人,更强大的预测应用程序,并为移动设备带来新的工作流程。这些系统只受其智能水平的限制,以及良好的设计能力来覆盖智能中的弱点。

语音助理正在成为新的操作系统

亚马逊 Alexa 已经从一个新事物悄悄成长为了一个平台。它现在有7000项“技能”(编者注:类似于插件),销售量超过500万个。

现在,企业部署的拉锯战也已经展开:个人助理的战斗俨然升级为巨头之间的多重产品线之战。

Alphabet发布了Google Home和以Google Assistant为中心的Pixel手机。语音识别在过去18个月已渗入到智能手机、可穿戴设备、越来越多的家用电子产品和汽车,甚至是床垫的标准功能。2016年中期,Android搜索的20%是基于语音的,Siri每周收到20亿次请求。

在技术方面,去年几家公司(包括百度和微软)宣布他们打破了人类语音识别的障碍,通过深度学习方法提高了与人交流的准确性,在高噪音环境中也取得了不错的进展——允许人们在房间里喊话设备,或者在办公室里向AirPods窃窃私语。

重要的是,像Echo这样的产品似乎已经跨越了“延迟障碍”,能足够快地提供回应,以便促进用户参与,容忍失败的问询。

虽然许多这些进步开始出现在大公司的实验室,全功能平台PullString和平台性工具 Amazon Lex的出现,大大降低了开发成本。像高通这样的组件制造商甚至将主动噪声消除这样的通用功能移植到到他们的蓝牙芯片当中。

市场现状:亚马逊 Alexa 暂时领先,谷歌、微软、苹果仍有机可乘

这个领域里最大的技术玩家们拥有数据、社交图谱和分布优势(如 Facebook Messenger 的快速增长就证明了这一点)。而谷歌和苹果则尽可能地占据了消费者的移动设备体验。

2016年,亚马逊的 Echo 系列设备似乎销量很好,价格不高的 Echo Dot 智能音箱已经成为购物季时亚马逊网站最畅销的商品。Forrester 的研究估计,到2016年年底,亚马逊卖出了 600 万台 Echo 设备。

2017年1月刚过一半,就好像已经能预见这一年将是亚马逊的 Alexa 之年。在今年的 CES 上,亚马逊显然成了主导。LG、GE、福特等公司宣布他们的小工具、家用电器,甚至汽车,都可以连接到 Alexa。与智能手机相比,Echo 的市场仍然很小,但它的增长很快。

这一切都引向了一个普遍的看法,就是亚马逊正在语音助理及语音助理中运行的 App 这个不断增长的市场中赢得竞争。到目前为止,Alexa 在这场竞争中已经基本没有对手。

在 CES 2017,LG 发布内置亚马逊 Alexa 的智能冰箱

但是,仅仅到目前为止。搜索巨头谷歌有着 Google Home 设备和 Google Assistant,微软正在将其 Cortana 个人助理定位为工作场景的智能助理,甚至苹果据说也在造类似 Echo 的设备。他们都对亚马逊的午餐虎视眈眈。

亚马逊何以领先?

亚马逊在2014年推出 Echo,其早期的成果很大一部分原因是它没有过度吹嘘。几年来,iPhone 的用户已经对 Siri 这个所谓的第一代真正主流的语音代理非常失望了。因此,亚马逊把 Echo 强调为一个音箱,附带内置有几个智能的语音命令。

然后,随着人们开始习惯于 Alexa 聊天,出现了一些积极的口碑传播,亚马逊也为 Alexa 增加更多的功能。现在的 Alexa 已经拥有非常多的“技能”,能够与各种应用程序链接,例如 Uber、Twitter、Nest 恒温器等。似乎是突然之间,Echo 从一个新奇的玩意儿变成了一整个的生态系统。

同时,Echo 的“无障碍”购物功能直接进入亚马逊的核心零售业务。实际上,Gartner 研究总监 Werner Goertz说,他有三个月没去过线下杂货店了,因为他的所有事物都是通过呼唤 Alexa 直接从亚马逊网站买来的。

Forrester 首席分析师 Thomas Husson 认为,亚马逊的整体发展策略是继续推进 Alexa,让它的功能更多,集成到更多的智能家居,以及支持更多的媒体功能。使用 Alexa 设备的人越多,他们在亚马逊网站上花钱购物的可能性就越大。因此,与其他竞争对手不同,亚马逊可以为 Alexa 承受损失。

Husson 说:“亚马逊将通过为设备捆绑内容(例如音乐、视频)来更多地补贴 Echo。”他们负担得起,因为这些不是他们的商业模式的核心:他们的最终目标是促进用户与 Echo 的互动。Husson 指出,Echo 不仅会鼓励用户更多地去购物,而且会将更多的数据反馈给亚马逊的推荐系统,因此网站和应用程序都可以再次促进用户购买更多商品。

谷歌的优势:搜索技术和安卓用户

谷歌大力推广 Google Assistant,总的看来有两处关键优势。

首先,Forrester 研究的 Husson 指出,谷歌有海量的搜索数据库,同时比起竞争对手来在机器学习方面的投入也更早。在搜索方面,谷歌是无敌的。因此,谷歌也比任何人都擅于回答问题,而这是语音助理的核心功能。

其次,全球安卓用户约有 15 亿,这些人的手机理论上都能升级安装 Google Assistant(但实际安装与否就是另一回事了)。此外,谷歌的最新信息应用 Google Allo 和智能手机 Google Pixel 都内置 Assistant。

谷歌的 Google Home 智能音箱

这些都是当前亚马逊在努力做但是没有做成功的。在 Business Insider 的测试中,Google Assistant 在执行日常任务时,表现超越了包括 Alexa 在内的其他语音助理。亚马逊 Alexa 才刚刚在手机和 TV 上面起步,谷歌的安卓操作系统几乎可以说已经无处不在。

微软的强处:Cortana 和商务软件

根据微软最新向 Business Insider 透露的消息,微软的战略是将 Gortana 虚拟助理打造为商业和忙碌的职业人士的语音助理。

跟谷歌一样,微软也在人工智能领域大力投资,在一些最先进的技术方面,比如 Cortana 这样能够进行像人类一样对话的虚拟智能体——Windows 10 将内置 Cortana。

但微软有其独有的专长:在过去的几十年里,一直在商务软件方面独占鳌头,Office 办公套件、Dynamics 销售软件,以及很快即将推出的 LinkedIn 职业社交网络。

而由于微软有这一优势,就跟尼桑和大众这样的公司建立起了联系,尼桑和大众两家的汽车里面都内置微软的技术。尼桑甚至还在下一代汽车的操作面板内置 Cortana。微软将 Cortana 定位为在任何地方都能帮助你提高生产力的产品,哪怕在车里,你两手不得空的时候。

当然,微软也有自己的困难。虽然 Cortana 正逐渐开始走入其他设备,比如上面说的尼桑的车,以及 Harman Kardon 制造的像 Echo 一样的音箱,但 Cortana 主要还是在 Windows 10 的设备上。而根据 2016 年 9 月份的数据,全球 Windows 10 的用户只有 4 亿,相较苹果 iOS 和安卓用户这个数字就很少了。

苹果的机会:后来者打造差异化用户体验

“苹果把所有因素都集齐了:超过 10 亿用户的安装系统,Apple Music、Beats、Siri 等等,”Forrester 的 Husson 表示:“苹果完全可以把这些整合起来,打造一个更好用的用户界面。”

但是,对于苹果这家全球市值第一的公司而言,进入市场的时间剩下的不多了,而且其他几大竞争对手都可以在苹果出手前就把苹果挤出战场。

如果你买了一台内置亚马逊 Alexa 的智能冰箱,你可能在要换冰箱时才会考虑市面上其他的智能语音助理。不然的话,你就会担心你的冰箱不能与灯泡或者家庭治安系统沟通出现问题。就算能工作,你家里也会有好几个智能语音助理,这对用户使用而言是不太好的。

在这种情况下,Goertz 表示,“Alexa 就把你锁住好几年。”

同时,苹果自己的 HomeKit 智能家居方案还处于“没有开发起来”的阶段,“不那么统一”(not that cohesive),这导致消费者和智能家居供应商开始找寻其他的产品和制造商。另一方面,尽管苹果在各种宣传推广中将 Apple TV 打造为智能家庭的枢纽,但由于 Siri 内置,Apple TV 使用起来不像一直开机的亚马逊 Alexa 或 Google Home 一样便于操作。

但是,Husson 还是持乐观态度:“苹果几乎从来不是最先打入市场的玩家,但他们能够做出差异化,就像触摸屏那样。”

苹果产品转型战略:AirPods

美国人去年花更多的钱在无线耳机比有线品种。苹果固定了35毫米耳机端口,并出来了他们真正的无线AirPods(悬念!)。如果你有AirPods,你的iPhone附近,你可以说话命令,在你周围的稀薄的空气,而不触摸你的手机。你甚至可以跳过令人讨厌的“嘿Siri”唤醒字与一个离散的双抽头的耳塞。只是这个功能将显着增长我的Siri使用(从今天零)。 AirPods本身是伟大的硬件。我爱他们,我使用他们,他们使Siri一个新的和更好的经验;已经有很多热门评论了。

然而,从戴耳机一天几个小时,到每天更多的时间穿戴更轻,无线的耳机,甚至在我们的大部分醒来时间都有耳塞——这是不是一个巨大的延长——特别是如果他们可以连接我们应用程序,同时允许我们继续体验世界其他地方。

亚马逊 Alexa 在智能家居领先,但技术和生态上谷歌、微软和苹果仍有反击余地 虽然 Alexa 在市场份额中独占鳌头,但是Siri,Alexa,Google Assistant,Cortana 到底哪个好用,哪个笨拙?!这要把它们放在一起真刀真枪地比试一下才会见分晓。

为此,Business Insider 做了实验,测试者会就交通、邮件、发信息、社交、翻译、知识面、性格特征等方面提出一些问题或指令,然后评选出这一项中表现最优的产品。

用了几轮下来,如果按每一项测试的积分叠加,Siri 应该是是冠军,但是测试者整体感受下来,还是比较倾向使用 Google Assistant。从技术上来说,Google Assistant是最流畅的,测试者不需要把一个问题重复多次,在很多实用场景下解决问题的能力也比较好,而 Siri 给人感觉更像是一个机器人。亚马逊 Alexa 最擅长的还是一个向设定闹钟和日历提醒这样的基本功能,而且它的“绝技”是网上购物和智能家居控制。Cortana 则更像是一个Bing的语音版。

由此,亚马逊的 Alexa 虽然在年轻的智能家居市场似乎稳居第一,但是在智能语音技术方面上升的空间还有很多,因而被赶超的可能性大有所在。当然,以下测评发生在 2016 年的11月,各款助理现在或许都有改进。但究竟谁能登上下一代计算平台的霸主地位,目前还说不好。

语音成为下一代计算平台还需解决的技术挑战

一、自然语言理解

去年,Facebook 的AI 研究室成立的时候,作为实验室主任的 Yann LeCun说:“对于深度学习来说,下一个大的进步在于自然语言理解(NLU),其目标的是让机器具备不仅是理解词语,而是整个剧组和段落的能力。

并且,截止2016年6月,Loebner 大奖的金牌(通过图灵测试的奖励)也并没有颁出去。也许,现在的人机对话可以做到很好,拥有复杂的自然语言能力,许多的服务也以此为目标。但是,NLU 的实际发展情况究竟是什么,为什么会如此困难?

语言很难建模(和编程),因为它过于模糊。类似的句子可能会有非常不同的含义,同时,看起来非常不同的句子又可能有相同的意思。人类的交流是非常奇怪、无规则、无意识和上下矛盾的,但是,这些问题都可以通过人类理解非完全的、模糊的沟通信息的能力进行弥补,这是基于语境的。通过自身经验,我们会无意识地建立起复杂的模型,来理解不同的情境下,某个词的具体含义是什么。并且还能把这些模型组合到一起。

最近,许多围绕对话交互界面的突破都要追溯到自然语言处理的概念,这一技术近年来已经获得了足够充分的发展。

因为我们不会有意识地以一种结构化的方式来理解语言,所以,用于从大规模的、非标签的数据中进行推理的新数据方法(比如,深度学习)看起来非常适用于自然语言理解。这些技术极大地提升了我们计算语言的能力,并且不需要具体地对语言的原理进行编码。正如此前讨论到的,这得益于三个要素:更多的数据、更多的计算和更新、更好的算法。

结果证明,即使深度学习技术是NLU上非常严肃的一个进展,我们的自然语言“难题”离最终的解决还有很远。不同的应用(问答、情感分析、机器翻译、部分语音标签)需要有不同的模型架构:强监督式记忆神经网络、树形长短记忆网络、双向LSTM限制随机域(CRF),动态记忆网络等等。

即使我们在研究上有一些非常有潜力的新想法,设计、工程合成、可扩展的对话系统与这些想法的 结合依然处于非常复杂的状态,离商用还很远。人工智能的天才们都极端地聚焦在平台型的公司(因为那里有训练模型所需要的数据)。非盈利组织OpenAI已经开始行动,保证这些能力不要被垄断在这些以盈利为主要驱动力的互联网公司中。Open AI 最初宣布的四个目标中,有一个就是“打造拥有自然语言理解能力的代理”。

二、音频识别

语音受到几乎所有与发信息bots相同的技术问题,除了要求准确地转录。尽管最近在语言理解和语音合成方面取得了令人印象深刻的进展,但是创建引人注目的基于语音的体验仍然是一项艰巨的任务。

在音频本身,除了转录,还有很多未解决的问题,如口音、不同的环境、说话人识别、更情感的文本到语音的输出。现在Google助手或Siri所发出的每个声音仍然是一个机械式的女声,在“串联语音合成”的过程中切断和重新组装。然而,深层次和强化学习似乎正在取得长足进步,最近Google DeepMind的WaveNet发出的音频是基于原始波形建模的。

三、未知UX领域

因为我们的技术还不成熟,所以我们需要用好的设计来打磨缺陷。

语音交互的设计仍处于早期阶段,对于平面接口有无限的输入。对于用户可以说的自然限制,并且危险地,他们自然地将人类特性归因于语音系统。在接下来的几年中,语音系统将无法正确地对许多查询做出反应。即使没有解决NLU问题,我们可以提高可用性,我们将看到扩大对语音接口设计的兴趣。

支持用户控制和自由,提高灵活性和效率,防止和处理错误,甚至使用可共享设计都将有所帮助。我们的语音助手会更好,当我们可以教他们特定的快捷命令,名称,默认和热门词,当公共设备支持独特的用户配置文件。

屏幕具有大量的相对信息密度,多模式语音+屏幕体验将是许多问题的正确短期解决方案(参见有关屏幕的回声的传言)。

用于语音原型设计和分析(如Sayspring和VoiceLabs)的必要支持工具已经开始出现。

四、计算功率和电池

Siri最常见的投诉是,它很慢,无法连接到Apple服务器场,并且无法离线工作。实际上,目前主要的语音助理(亚马逊,苹果,谷歌)都没有在本地工作 - 他们的大脑都在他们各自的父母的云后端,这不太可能改变很快。响应语音查询需要复杂的基于机器学习的模型推理,一个强烈的计算量大的任务。

始终在线监听和连接是强大的功能。因此,我们看到大多数语音控制的无线产品需要一个按钮敲击,而不是一个热门词汇:便携式Echo Tap,以及使用分离的专用处理器,例如DMBD4 和 Apple W1。

五、隐私,安全和身份验证

最后,为了让我们通过语音接口访问许多重要的服务,我们必须能够对其进行身份验证。 Alexa从相关的亚马逊账户购买默认启用,导致电子商务能力的孩子,办公室恶作剧和一个新闻广播员偶然命令他的观众玩具屋。更重要的是,如果我想通过虚拟助理访问我的美国银行帐户,她怎么知道我是我?

传统凭证在基于语音的设备上看起来像是一个比移动设备上更差的解决方案。一些人认为语音生物识别认证是更可能的下注。不幸的是,语音生物识别解决方案作为独奏解决方案感觉不可持续。正如照片处理软件意味着看到不再相信(不知何故,今天的社交媒体上的每十五岁比我在那个年龄时看起来更好看),音频操纵和综合技术表明很快听到不再相信。虽然今天有关于语音记录同意的各种州级规则,远场麦克风使执行更困难。

这些接口又一次推动了当今有缺陷的认证方法向行为,语境,基于风险的身份系统考虑了许多不同的信号。

综上,技术支撑上的挑战以及消费者较高的期待,让语音和对话服务处于一种十分尴尬的境地。更奇怪的是,“开始”一项对话服务的成本变得非常之低。许多开发者都对于入门对话服务开发的容易程度感到很兴奋,比如,只需要创造一个Facebook主页,下载BotKit,创造一个API、AI 或者Twilio账户等,但是,他们很快就会发现,创造一个良好的用户体验有多困难。

话说回来,技术触发是移动软件发生这种转变的可能原因。但只是可能的原因,并不意味着它是唯一的原因——经济、文化,特别是生态系统的触发(虽然较少得到人们的关注),实际上更重要。

移动生态系统的现状也是对话经济的驱动因素之一,与技术、经济和文化因素并列。

有一点是清楚的——这是新的技术战场,因为大企业间已经发起了硝烟。

编译来源:

  1. http://www.businessinsider.com/amazon-echo-google-home-microsoft-cortana-apple-siri-2017-1
  2. http://www.businessinsider.com/siri-vs-google-assistant-cortana-alexa-2016-11/
  3. https://news.greylock.com/the-conversational-economy-whats-causing-the-bot-craze-4dd8f1b44ba1#.jb2zfb5v9
  4. https://news.greylock.com/https-news-greylock-com-the-conversational-economy-voice-and-the-new-era-of-multi-modal-computing-96f535c058f6#.gf1d8rd1m
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档