前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google IO:创新技术后的大数据

Google IO:创新技术后的大数据

作者头像
IT阅读排行榜
发布2018-08-14 16:50:08
2900
发布2018-08-14 16:50:08
举报
文章被收录于专栏:华章科技
这几天,Google IO无疑成为了技术圈讨论的热点。作为Google举行的网络开发者年会,Google IO已经有10年的历史了。那么2016年会议的展示向大家传递了怎样的讯号呢?笔者认为基于大数据分析的人工智能是其中的重要元素之一。

为什么这么说呢?让我们先看看公布的一款重量级产品:GoogleAssistant(谷歌助手)。和苹果的Siri、微软的Cortana、以及Amazon的Alexa类似,它是一款语音智能助手,是进化版的GoogleNow。设计者们希望这位助手能帮你寻找最佳的餐馆、发现最热门的新闻、快速打电话给亲朋好友,甚至直接为你预订度假的完整行程。

Google Assistant的强大还体现在它内置于Allo和GoogleHome中。Allo是一款新鲜有趣又功能强大的智能聊天应用,具有自我学习的能力,会随着时间的推移,学习用户的说话行为。这就意味着,由于每个人的说话方式不同,Allo的回复也可能是十分个性化的。而作为智能家居系统中心的GoogleHome,则可以接收语音指令,并控制所连接的各项智能硬件,例如设置闹钟、开关电灯、调节空调温度、甚至启动车库里的汽车等等。

看到这里,你一定会觉得这些前沿的技术非常新颖,也很好奇这些梦幻般的场景是如何被逐步实现的。坦白而言,它们都离不开大规模数据的收集、分析和处理。就拿GoogleAssistant为例,虽然目前其技术细节对外是保密的,但是笔者根据业界的标准,以及自身的经验,仍然可以粗略预估其背后的技术方案,大致分为以下几个核心模块。

  • 语音的识别:系统根据用户的发音,自动识别对应的文本内容,这点是语音助理的首要环节,因为目前机器还无法直接理解人类的口语。其主要实现方式是模式匹配,在训练阶段,系统收集大量的语音资料,包括人们对于每个词汇的发音,并且将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高的结果作为识别结果输出。
  • 实体的识别:在一定的应用场景或者领域中,系统识别人名、地点、时间、产品、品牌等等,这些可以统称为实体(Entity)。例如,我们提问“中国南方有哪些秀丽的景点?”,系统应该知道“中国”“南方”都是描述地理位置的,而“景点”又和旅游产品相关。最基本的方法是通过行业字典,以及上下文分析(某些亚洲语言,例如中文还需要涉及分词)来实现,这些同样需要大量标注的数据和对应的模型。
  • 自然语言的理解:在实体识别的基础上,更进一步的分析是理解人类的语言。对于“中国南方有哪些秀丽的景点?”这样的问题,系统需要知道实体之间的关联,以及如何利用这些关联在知识库里查找合适的答案。目前,开放世界的语言理解存在几个挑战,例如语义消歧、词语省略、代词所指等等。随着机器的存储量和计算速度逐步提升,用于分析的数据不断积累,系统效果才有可能被适当的增强。
  • 知识的推理:在一定程度理解用户的语言后,更高阶的系统分析是尝试进行推理。当用户问及中国南方的景点,系统可以推理出他/她可能需要一次度假,就可以主动提示是否需要机票、酒店之类的旅游线路预订。之前的本体论研究,包括最近火热的深度学习都可以用于这个需求的设计,其关键是让机器理解不同概念之间的包含和推理关系。这点对于数据的质量和数量要求就更为苛刻。

仅从这几点就可以看出Google的科研非常前瞻,道路上充满了挑战。不过,我们对于Google的研发能力毋庸置疑,海量的数据加上精细的模型,就可以创造更多的可能,不断地提升用户的体验,最终满足商业的需求。最后,剩下的问题只是:技术对人类生活的改变能做到何种极限?让我们拭目以待吧!

当然,如果你不满足于做一个旁观者,而是对数据、技术和业务实现充满了热情,那么可以看看由机械工业出版社(华章IT)2016年5月出版的《大数据架构商业之路:从业务需求到技术方案》。此书是国内为数不多的来自实际项目经验的原创,将技术与商业需求相结合,深入剖析大数据商业应用中的困惑与难题,为大数据产业的发展助上一臂之力。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档