Google IO:创新技术后的大数据

这几天,Google IO无疑成为了技术圈讨论的热点。作为Google举行的网络开发者年会,Google IO已经有10年的历史了。那么2016年会议的展示向大家传递了怎样的讯号呢?笔者认为基于大数据分析的人工智能是其中的重要元素之一。

为什么这么说呢?让我们先看看公布的一款重量级产品:GoogleAssistant(谷歌助手)。和苹果的Siri、微软的Cortana、以及Amazon的Alexa类似,它是一款语音智能助手,是进化版的GoogleNow。设计者们希望这位助手能帮你寻找最佳的餐馆、发现最热门的新闻、快速打电话给亲朋好友,甚至直接为你预订度假的完整行程。

Google Assistant的强大还体现在它内置于Allo和GoogleHome中。Allo是一款新鲜有趣又功能强大的智能聊天应用,具有自我学习的能力,会随着时间的推移,学习用户的说话行为。这就意味着,由于每个人的说话方式不同,Allo的回复也可能是十分个性化的。而作为智能家居系统中心的GoogleHome,则可以接收语音指令,并控制所连接的各项智能硬件,例如设置闹钟、开关电灯、调节空调温度、甚至启动车库里的汽车等等。

看到这里,你一定会觉得这些前沿的技术非常新颖,也很好奇这些梦幻般的场景是如何被逐步实现的。坦白而言,它们都离不开大规模数据的收集、分析和处理。就拿GoogleAssistant为例,虽然目前其技术细节对外是保密的,但是笔者根据业界的标准,以及自身的经验,仍然可以粗略预估其背后的技术方案,大致分为以下几个核心模块。

  • 语音的识别:系统根据用户的发音,自动识别对应的文本内容,这点是语音助理的首要环节,因为目前机器还无法直接理解人类的口语。其主要实现方式是模式匹配,在训练阶段,系统收集大量的语音资料,包括人们对于每个词汇的发音,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高的结果作为识别结果输出。
  • 实体的识别:在一定的应用场景或者领域中,系统识别人名、地点、时间、产品、品牌等等,这些可以统称为实体(Entity)。例如,我们提问“中国南方有哪些秀丽的景点?”,系统应该知道“中国”“南方”都是描述地理位置的,而“景点”又和旅游产品相关。最基本的方法是通过行业字典,以及上下文分析(某些亚洲语言,例如中文还需要涉及分词)来实现,这些同样需要大量标注的数据和对应的模型。
  • 自然语言的理解:在实体识别的基础上,更进一步的分析是理解人类的语言。对于“中国南方有哪些秀丽的景点?”这样的问题,系统需要知道实体之间的关联,以及如何利用这些关联在知识库里查找合适的答案。目前,开放世界的语言理解存在几个挑战,例如语义消歧、词语省略、代词所指等等。随着机器的存储量和计算速度逐步提升,用于分析的数据不断积累,系统效果才有可能被适当的增强。
  • 知识的推理:在一定程度理解用户的语言后,更高阶的系统分析是尝试进行推理。当用户问及中国南方的景点,系统可以推理出他/她可能需要一次度假,就可以主动提示是否需要机票、酒店之类的旅游线路预订。之前的本体论研究,包括最近火热的深度学习都可以用于这个需求的设计,其关键是让机器理解不同概念之间的包含和推理关系。这点对于数据的质量和数量要求就更为苛刻。

仅从这几点就可以看出Google的科研非常前瞻,道路上充满了挑战。不过,我们对于Google的研发能力毋庸置疑,海量的数据加上精细的模型,就可以创造更多的可能,不断地提升用户的体验,最终满足商业的需求。最后,剩下的问题只是:技术对人类生活的改变能做到何种极限?让我们拭目以待吧!

当然,如果你不满足于做一个旁观者,而是对数据、技术和业务实现充满了热情,那么可以看看由机械工业出版社(华章IT)2016年5月出版的《大数据架构商业之路:从业务需求到技术方案》。此书是国内为数不多的来自实际项目经验的原创,将技术与商业需求相结合,深入剖析大数据商业应用中的困惑与难题,为大数据产业的发展助上一臂之力。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

让你的组织准备好迎接未来!15个可视化事实

13850
来自专栏大数据文摘

没有可视化,就没有大数据

364140
来自专栏机器之心

深度 | 联想AI实验室负责人徐飞玉:人工智能变迁,从实验室走入日常生活

机器之心报道 演讲者:徐飞玉 参与:微胖、黄小天 面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST(AIWTB)于 20...

31790
来自专栏大数据文摘

沈浩:通过大数据感知社会

43690
来自专栏云市场·精选汇

干货丨矩阵化运营,轻松提高小程序流量

目前很多头部小程序都在发展小程序矩阵化,因为单一的小程序无法形成生态,不利于长时间发展。而做矩阵的目的不只是实现精准的流量获取,更重要的一点是为了实现目标人群一...

16920
来自专栏云计算D1net

云计算对阵高性能计算:谁更具竞争力?

最近一段时间以来,高性能计算集群方案到底应该自主构建还是直接购买的争论可谓如火如荼,其部分原因在于原本属于市场空白的性能与软件生态系统关键性组成部分如今已经逐渐...

40170
来自专栏互联网数据官iCDO

广告狗们,真不是吓唬你!再甩你10个可能抢走狗粮的经典案例!

小编发现,自从昨天发布了广告狗们注意了!未来夺走你工作的可能不是客户爸爸---是他!引起了一片哗然!于是小编一发不可收拾,瞒着老板又收集了十个早期经典案例准备继...

11610
来自专栏场景录小程序

干货丨矩阵化运营,轻松提高小程序流量

目前很多头部小程序都在发展小程序矩阵化,因为单一的小程序无法形成生态,不利于长时间发展。而做矩阵的目的不只是实现精准的流量获取,更重要的一点是为了实现目标人群一...

13220
来自专栏CDA数据分析师

关于数据分析有两个段子,谈数据分析那点事

从微博段子说起,微博上关于数据分析有两个段子,我经常当作案例讲,第一个段子,说某投资商对某企业所属行业有兴趣,要做背景调查,甲是技术流,一周分析各 种网上数据,...

41750
来自专栏VRPinea

当VR画面可以做的很逼真时,VR音频的发展又如何呢?

VR可以说是当下最火热的科技趋势之一,但VR音频技术却从没有在专业音频领域获得热捧。虽然音频技术几乎是和视频服务一起进入市场,但在VR游戏、VR电影等中的表现却...

11420

扫码关注云+社区

领取腾讯云代金券