前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >人工智能 = 深度学习?

人工智能 = 深度学习?

作者头像
IT阅读排行榜
发布2018-08-16 15:38:18
7780
发布2018-08-16 15:38:18
举报
文章被收录于专栏:华章科技
今天要向大家隆重推荐由Facebook研究科学家、前微软亚洲研究院主管研究员王仲远博士撰写的一本新书《短文本数据理解》

短文本数据理解

该书选取了如何让机器“智能”地理解“短文本”(比如搜索查询、广告关 键字、标签、微博、问答、聊天记录等)这一前沿研究课题,汇集了王仲远博士及其合作作者在国际顶级学术会议发表的前沿论文,介绍了在微软和Facebook实际产品中所应用的相关技术,是一本同时适合学术界和工业界人士阅读的书籍。

近年来,“人工智能”这个已经存在几十年的词重新成为一个热词。尤其是随着AlphaGo的横空出世,一般百姓对于人工智能都有所耳闻,许多公司更是宣布把人工智能作为未来最重要的战略方向。由于近期在图片、语音识别的技术突破,以及AlphaGo背后的技术,都采用的是深度学习技术,使得许多人认为人工智能就是深度学习。

然而,在许多业内人士看来,尽管深度学习确实推动了一拨技术变革,但其所代表的人工智能技术仍然是“弱人工智能”技术。其典型特征是: (1) 面向某一个具体问题(比如下围棋,识别视频中的猫,打某一款游戏,等等);(2)需要大量训练数据。虽然许多系统宣称能够“迁移学习”到不同的领域,但在实际系统中,总是还遇到这样或那样的困难。这也是为何深度学习在图像、语音领域已经有突破性进展,但在自然语言处理领域,虽然大量论文涌现,并且在一些系统中也实际应用,但仍然只是处在“厚积”的阶段,等待“薄发”的那一刻。

与此同时,学术界始终存在着不同观点的争论。例如,2015年12月美国《科学》杂志封面文章《Human-level concept learning through probabilistic program induction(通过概率程序归纳法实现人类层次的概念学习)》中, 三名分别来自麻省理工学院、纽约大学和多伦多大学的研究就指出:人类常常只需要一个或数个例子就可以学习出一个新的概念,而机器却需要数百个例子才能达到相似的识别精度。例如,当人们看到一个新型的二轮平衡车实例后,可以很容易将它从独轮车、自行车、摩托车、汽车中识别出来。但是对于机器而言,目前还不具备这样的能力。深度学习仍然像是一个深不见底的“记忆黑盒子”,需要通过大量的训练样例,才能够学出超出人类能力的本领。在这篇《科学》杂志封面论文中,作者直指深度学习的软肋,并声称通过“贝叶斯程序学习”能够模拟人类认知,并通过了图灵测试。虽然三位作者和深度学习顶尖大牛Geoffrey Hinton相互之间都礼貌地表明,“贝叶斯程序学习”和“深度学习”在不同的任务上各领风骚,假如能彼此借鉴,一定能互相弥补,但是学术界中的“贝叶斯派”和“神经网络派”的“暗战”还在持续。

言归正传,在自然语言处理领域,文本理解仍然是人工智能尚未攻克的难题。虽然“微软小冰”已经能够陪人聊天,并且在微软研究院研究团队的鼎力支持下,正在具备“情感”以及“个性”,但是业内人士仍然清楚地意识到,基于检索方式以及LSTM的技术方案,或许能够让产品显得“人工智能”,但是离真正地能够“自主学习”的“人工智能”仍然相去甚远。这是因为,虽然计算机当下能轻而易举地战胜世界围棋冠军,但是它的学习能力以及文本理解的能力可能都远不及一个三四岁的孩童。

去年10月底,微软研究院发布了Microsoft Concept Graph(微软概念图谱,https://concept.research.microsoft.com/)。其核心知识库包含了超过540万条概念。除了包含一些被绝大部分通用知识库包含的概念,例如“城市”、“音乐家”等,Microsoft Concept Graph还包含数百万长尾概念,例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等,而这些概念在其他的知识库中很难被找到。这个概念知识图谱,可以让计算机掌握“常识”(这是人类理解万物的基础),从而模仿人类进行简单推理。

基于概念知识图谱进行推理的过程叫做概念化,它是模拟人类看到短文本时在脑海中形成推理的过程。例如,当我们看到“苹果”的时候,我们会知道它有可能是一种水果,也有可能是一家公司;当我们看到“苹果工程师”的时候,我们脑海中会形成简单的推理,认为这个“苹果”很有可能是指苹果公司;更进一步,当我们看到“苹果工程师在吃苹果”,由于“吃”这个动词的存在,这个短文本中的第二个“苹果”指的就应该是水果。这种基于不同上下文进行推理的过程就是“概念化”(Conceptualization)。目前,机器已经能够完全模拟这一过程,进行“常识推理”,从而对文本产生一种显性理解结果:“概念化向量”。这种向量与基于深度学习产生的词向量类似,可以用于进行语义相似度计算,但是不同点是“概念化向量”是可解释的,而由深度学习产生的词向量是不可解释的。

在大数据管理丛书主编孟小峰教授以及机械工业出版社的协调下,Microsoft Concept Graph(微软概念图谱)前负责人以及其概念化核心算法设计者王仲远博士将其发表的众多顶级学术会议论文以及前沿算法汇集成册,即《短文本数据理解》,由机械工业出版社大数据管理丛书在今年5月出版。

本书作者王仲远博士,现在是美国Facebook公司Research Scientist(研究科学家)。他带领一个团队,负责Facebook网站每天数十亿Query(查询)以及Post(帖子)中的实体识别与链接。他的团队仅用半年时间就将原有产品的关键指标F1提升了80%,达到业界最高水准。加入Facebook前,他是微软亚洲研究院的主管研究员,领导微软研究院的两个知识图谱项目Probase(即微软的概念知识图谱/Microsoft Concept Graph)和Enterprise Dictionary(企业知识图谱项目),以及一个人工智能助手项目Digtal Me。他多年来专注于知识图谱及其在文本理解方面的研究,已在SIGMOD、VLDB、ICDE、IJCAI、AAAI、CIKM、EMNLP等国际顶级学术会议上发表论文30余篇,其中包括ICDE 2015最佳论文奖。他也是国际自然语言顶级学术会议ACL 2016 Tutorial “Understanding Short Texts”的主讲人之一。目前已出版技术专著2本,拥有美国专利5项。他的研究兴趣包括:文本理解、知识库系统、自然语言处理、深度学习、数据挖掘等。

书中所介绍的方法已经在微软以及Facebook的许多产品中成功应用。因此,本书既介绍了短文本理解前沿科研技术,又是为数不多能够具体落地的产品技术。适合学术界和工业界相关研究人员阅读,也适合对人工智能、自然语言处理技术、知识图谱感兴趣的读者。

END

投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档