人工智能 = 深度学习?

今天要向大家隆重推荐由Facebook研究科学家、前微软亚洲研究院主管研究员王仲远博士撰写的一本新书《短文本数据理解》

短文本数据理解

该书选取了如何让机器“智能”地理解“短文本”(比如搜索查询、广告关 键字、标签、微博、问答、聊天记录等)这一前沿研究课题,汇集了王仲远博士及其合作作者在国际顶级学术会议发表的前沿论文,介绍了在微软和Facebook实际产品中所应用的相关技术,是一本同时适合学术界和工业界人士阅读的书籍。

近年来,“人工智能”这个已经存在几十年的词重新成为一个热词。尤其是随着AlphaGo的横空出世,一般百姓对于人工智能都有所耳闻,许多公司更是宣布把人工智能作为未来最重要的战略方向。由于近期在图片、语音识别的技术突破,以及AlphaGo背后的技术,都采用的是深度学习技术,使得许多人认为人工智能就是深度学习。

然而,在许多业内人士看来,尽管深度学习确实推动了一拨技术变革,但其所代表的人工智能技术仍然是“弱人工智能”技术。其典型特征是: (1) 面向某一个具体问题(比如下围棋,识别视频中的猫,打某一款游戏,等等);(2)需要大量训练数据。虽然许多系统宣称能够“迁移学习”到不同的领域,但在实际系统中,总是还遇到这样或那样的困难。这也是为何深度学习在图像、语音领域已经有突破性进展,但在自然语言处理领域,虽然大量论文涌现,并且在一些系统中也实际应用,但仍然只是处在“厚积”的阶段,等待“薄发”的那一刻。

与此同时,学术界始终存在着不同观点的争论。例如,2015年12月美国《科学》杂志封面文章《Human-level concept learning through probabilistic program induction(通过概率程序归纳法实现人类层次的概念学习)》中, 三名分别来自麻省理工学院、纽约大学和多伦多大学的研究就指出:人类常常只需要一个或数个例子就可以学习出一个新的概念,而机器却需要数百个例子才能达到相似的识别精度。例如,当人们看到一个新型的二轮平衡车实例后,可以很容易将它从独轮车、自行车、摩托车、汽车中识别出来。但是对于机器而言,目前还不具备这样的能力。深度学习仍然像是一个深不见底的“记忆黑盒子”,需要通过大量的训练样例,才能够学出超出人类能力的本领。在这篇《科学》杂志封面论文中,作者直指深度学习的软肋,并声称通过“贝叶斯程序学习”能够模拟人类认知,并通过了图灵测试。虽然三位作者和深度学习顶尖大牛Geoffrey Hinton相互之间都礼貌地表明,“贝叶斯程序学习”和“深度学习”在不同的任务上各领风骚,假如能彼此借鉴,一定能互相弥补,但是学术界中的“贝叶斯派”和“神经网络派”的“暗战”还在持续。

言归正传,在自然语言处理领域,文本理解仍然是人工智能尚未攻克的难题。虽然“微软小冰”已经能够陪人聊天,并且在微软研究院研究团队的鼎力支持下,正在具备“情感”以及“个性”,但是业内人士仍然清楚地意识到,基于检索方式以及LSTM的技术方案,或许能够让产品显得“人工智能”,但是离真正地能够“自主学习”的“人工智能”仍然相去甚远。这是因为,虽然计算机当下能轻而易举地战胜世界围棋冠军,但是它的学习能力以及文本理解的能力可能都远不及一个三四岁的孩童。

去年10月底,微软研究院发布了Microsoft Concept Graph(微软概念图谱,https://concept.research.microsoft.com/)。其核心知识库包含了超过540万条概念。除了包含一些被绝大部分通用知识库包含的概念,例如“城市”、“音乐家”等,Microsoft Concept Graph还包含数百万长尾概念,例如“抗帕金森治疗”、“名人婚纱设计师”、“基础的水彩技巧”等,而这些概念在其他的知识库中很难被找到。这个概念知识图谱,可以让计算机掌握“常识”(这是人类理解万物的基础),从而模仿人类进行简单推理。

基于概念知识图谱进行推理的过程叫做概念化,它是模拟人类看到短文本时在脑海中形成推理的过程。例如,当我们看到“苹果”的时候,我们会知道它有可能是一种水果,也有可能是一家公司;当我们看到“苹果工程师”的时候,我们脑海中会形成简单的推理,认为这个“苹果”很有可能是指苹果公司;更进一步,当我们看到“苹果工程师在吃苹果”,由于“吃”这个动词的存在,这个短文本中的第二个“苹果”指的就应该是水果。这种基于不同上下文进行推理的过程就是“概念化”(Conceptualization)。目前,机器已经能够完全模拟这一过程,进行“常识推理”,从而对文本产生一种显性理解结果:“概念化向量”。这种向量与基于深度学习产生的词向量类似,可以用于进行语义相似度计算,但是不同点是“概念化向量”是可解释的,而由深度学习产生的词向量是不可解释的。

在大数据管理丛书主编孟小峰教授以及机械工业出版社的协调下,Microsoft Concept Graph(微软概念图谱)前负责人以及其概念化核心算法设计者王仲远博士将其发表的众多顶级学术会议论文以及前沿算法汇集成册,即《短文本数据理解》,由机械工业出版社大数据管理丛书在今年5月出版。

本书作者王仲远博士,现在是美国Facebook公司Research Scientist(研究科学家)。他带领一个团队,负责Facebook网站每天数十亿Query(查询)以及Post(帖子)中的实体识别与链接。他的团队仅用半年时间就将原有产品的关键指标F1提升了80%,达到业界最高水准。加入Facebook前,他是微软亚洲研究院的主管研究员,领导微软研究院的两个知识图谱项目Probase(即微软的概念知识图谱/Microsoft Concept Graph)和Enterprise Dictionary(企业知识图谱项目),以及一个人工智能助手项目Digtal Me。他多年来专注于知识图谱及其在文本理解方面的研究,已在SIGMOD、VLDB、ICDE、IJCAI、AAAI、CIKM、EMNLP等国际顶级学术会议上发表论文30余篇,其中包括ICDE 2015最佳论文奖。他也是国际自然语言顶级学术会议ACL 2016 Tutorial “Understanding Short Texts”的主讲人之一。目前已出版技术专著2本,拥有美国专利5项。他的研究兴趣包括:文本理解、知识库系统、自然语言处理、深度学习、数据挖掘等。

书中所介绍的方法已经在微软以及Facebook的许多产品中成功应用。因此,本书既介绍了短文本理解前沿科研技术,又是为数不多能够具体落地的产品技术。适合学术界和工业界相关研究人员阅读,也适合对人工智能、自然语言处理技术、知识图谱感兴趣的读者。

END

投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2017-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

微软对话语音识别再获突破,首次达到人类专业水平

1 新智元推荐1 来源:微软研究院AI头条 【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%...

39960
来自专栏新智元

【清华 AI 公开课】IJCAI理事长杨强:人工智能在企业的落地是一门大学问

17030
来自专栏灯塔大数据

经验谈丨如何在一年之内成为一名数据挖掘工程师?

? ? 不管是数据分析师还是数据挖掘工程师,我们的目标都是认识数据,从数据中发现需要的信息。 ? ? 所需要的技能 ? 做数据分析,统计的知识肯定是需要的,E...

34750
来自专栏机器人网

做机器人算法工程师是怎样一种体验?

我应该也算是机器人算法工程师了,我所在实验室就叫学习算法与系统实验室(LASA, Learning Algorithm and System Lab,Learn...

1.1K80
来自专栏钱塘大数据

【大咖说】英特尔首席工程师:大数据是上帝智能

本文作者:吴甘沙 全文3214字,建议阅读时间:5分钟 上期回顾:【大咖说】吴军:数据为王和机器智能的时代 一、大数据之道 我认为把一件事情讲清楚,就要从这五个...

37260
来自专栏新智元

【独家】贾佳亚教授正式加盟腾讯优图,计算机视觉大师的光荣与梦想

【新智元导读】 张潼、俞栋之后,腾讯又迎来一名AI大师,计算机视觉的领军者——香港中文大学终身教授贾佳亚正式全职加入。2017年5月13日,在腾讯正式宣布贾佳亚...

43370
来自专栏新智元

【超GPU 100倍】IBM新型AI芯片发Nature,英特尔、微软出大招

15220
来自专栏磐创AI技术团队的专栏

廖雪峰大牛13个案例带你全面入门人工智能!

现在互联网上广为流传的[18届互联网校招薪酬表],震惊了还在敲代码的小编我,给你们看看这张高薪表 ??

16240
来自专栏大数据文摘

李飞飞四大视角看视觉智能:AI会改变世界,谁会改变AI(完整演讲+PPT)

25250
来自专栏新智元

双刃剑 | 机器学习的潜力与陷阱

最近这段时间,机器学习吸引了媒体和从业者大量的关注。的确,机器学习是一种变革性的技术。但是,尽管众人对这个话题喋喋不休,尽管风投为机器学习提供了许多资金,尽管谷...

28840

扫码关注云+社区

领取腾讯云代金券