专访 | 从专家系统到大数据知识工程,「千人计划」专家吴信东如何为数据冠以知识

机器之心原创

作者:思

近日,机器之心采访了明略数据首席科学家、科学院院长吴信东教授,吴教授一直专注于知识工程方面的研究,并从专家系统到大数据时代经历了技术的变迁与发展。在本文中,我们将着重介绍专家系统及大数据环境下的知识工程,它们的共性是从专家或数据中提取知识,并用于进一步的推理与预测。吴信东教授在 10 月 15 到 16 号的 AIIA 人工智能开发者大会将会更详细地介绍大数据知识工程。

吴信东教授是国家「千人计划」特聘专家、长江学者、IEEE & AAAS Fellow,他早期关注于专家系统,也就是知识工程的应用实践。而随着机器学习与大数据的流行,他领导的科技部重点研发项目 BigKE 将「大数据」引入了「大知识」。整体而言,大数据知识工程(BigKE)也就是从多种异构数据源抽取碎片化的知识,并将这些知识融合为整体以提供进一步的知识服务。

专家系统

专家系统,即从领域专家获取知识,并将这种知识迁移到计算机系统以自动实现某些专家能力求解的功能。对于基于专家系统的知识工程,其可以定义成为对应用问题求解所进行的知识的获取、表达和推理。它主要包含三阶段,首先知识的获取就需要与领域专家交流,并获取专家在该领域解决特定问题的知识。其次需要将获取的知识表达出来,这一般是形式化的表达,例如用逻辑表示和知识图谱表示等。最后需要基于这种表示对问题进行求解,也就是进行知识推理。

吴信东教授表示目前其实还有很多解决方案在实践中会使用专家系统,只不过它会作为大系统的组成部分,其它如计算机视觉、深度学习和知识图谱等组成部分可能更加引人注意。此外,专家系统完成的任务相对于端到端的方法会更宽广。例如深度学习方法更擅长识别和分类等任务,它关注非常精细的决策。而专家系统会尝试解决整个领域需要专业知识的决策,它可能会涉及多种任务。

正如吴教授所说,专家知识在各种系统都充当着非常重要的作用,不论是针对特定领域问题还是大数据。例如对于机器学习来说,很多时候先验知识都是一种专家知识,而卷积神经网络等新型模型同样也应用了专家知识,因为我们假设了图像等二维数据只有在局部才是相互影响的。

但是纯粹的专家系统却有很多局限性,它无法兼容当前的大数据环境。首先大数据具有三大显著特点,即海量数据、数据质量参差不齐、个性化属性,这些都是传统专家系统无法解决的,因此也就有了吴教授负责的国家重点研发计划重点专项项目----大数据知识工程(BigKE)。

大数据知识工程

在大数据时代,如何利用知识工程的思想和方法获取、表示、推理和解释大数据,并将挖掘出的知识形成解决问题的大知识系统,这就是大数据知识工程(BigKE)最希望完成的目标。

相比于传统专家系统,基于大数据的大知识系统更关注提取各种数据中的碎片化知识,并与领域的专家知识相结合而构建整个系统。大数据知识工程降低了对专家知识的依赖性,并希望从碎片化的信息中抽取群智知识。吴信东教授表示,从整体而言,BigKE 可以分为三阶段,即多源异构数据中的碎片化知识建模、从局部知识到全局知识的碎片化知识融合、个性化知识导航。

包含三阶段的 BigKE 框架,第一阶段通过在线学习对碎片化知识进行建模,第二阶段实现非线性知识融合,第三阶段按需求提供知识服务。

碎片化知识建模

BigKE 首先会采用合适的模型对各种数据类型进行建模,相当于从非结构化数据中抽取结构化的知识。这一建模过程主要会采用在线学习的模式,即持续不断地一点点学习不同的知识碎片。此外,从多种数据源中抽取的碎片化知识对评估数据的可靠性和数据质量有着重要的作用。如上所示,BigKE 会同时考虑数据流与特征流,而对流数据的处理需要选择动态模型来刻画数据特征,因此动态的知识提取是非常重要的方面。

在线学习继续向后输出具有语义信息的特征,而数据的可靠性同样也会在后面得以评估。之所以需要评估,主要是因为我们无法对所有数据进行建模,而且不同数据来源有着良莠不齐的质量。因此我们可以对数据来源进行排序和评价,获得数据的精确度和可靠性,并在数据筛选时选择较高质量的数据。因此相比于一般的在线学习,关注特征流的在线学习不仅关注数据处理顺序,同时关注更有效和优质的特征空间。

吴教授表示对知识建模的在线学习可以是各种优秀的机器学习或深度学习模型。例如我们希望从文本中抽取出主体的属性,那么就能使用基于深度学习的命名实体识别抽取知识,而当我们希望从图像中抽取出主要物体,那么又可以使用卷积神经网络等方法抽取知识。这里不同类型的数据会有合适的方法进行处理,并抽取出我们想要的知识。

非线性知识融合

在从不同的数据源抽取必要的知识后,如何融合这些不同方面的知识就显得非常重要。为了将离散的局部知识融合为全局知识,BigKE 采用知识图谱表示碎片化知识,其中局部知识可以表示为完整知识图谱的一个子图。

吴教授说:「知识图谱的整体概念比较简单,它主要包含两部分。首先第一部分是节点,节点一般涉及到概念,比如人、物体和事件等,其次是连接,它会连接不同的概念。所以从本质上来说,任何能以概念及概念间的连接来表达的问题都能视为知识图谱。」此外在知识图谱中,连接会分为显性连接和隐性连接,显性连接可以是层次关系或亲友关系等,而隐性连接为两个概念没有直接关系,但计算相似度等手段可以建立新的隐性关系。在知识图谱里加上这些非线性属性以后,能够将局部知识与全局知识更好地聚合在一起,并实现更进一步的知识推理。

BigKE 采用知识图谱表示和融合局部知识有非常多的优势,首先来自各种数据源的知识有独特的属性,它们间的关系是复杂和演化的,因此传统的线性融合方法无法反映出局部知识之间的联系。而知识图谱为局部知识和全局知识提供了统一的表示形式,它们的概念都能表示成节点,而各种关系都能表示成连接。其次,知识图谱节点之间的路径可以视为不同知识片段之间的可能关联,这为个性化服务的实现提供了可能。

知识推理

BigKE 的目标是根据用户需求提供服务,也就是根据已搭建的知识图谱进行知识推理。对于前面搭建的知识图谱,其节点和边分别对应于知识单元和知识之间的语义关联,而提供知识服务可以视为搜索两点之间的最佳路径。此外,吴教授表示知识推理同样可以实现个性化的推荐,并为个性化的查询提供精确的导航服务。因此针对个性化查询,BigKE 会在知识图谱直接进行推断,从而预测用户可能的行为。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-10-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

DeepMind提出想象智能体,更鲁棒AlphaGo逼近真实世界

【新智元导读】DeepMind 最新发布的两篇论文提出了有想象力和计划能力的智能体。这些智能体能够想象行动结果、制定计划,为最高效地完成任务提供了新方法。智能体...

38470
来自专栏数据科学与人工智能

数据科学面临的共同挑战

随着我们进入2017年下半年,是时候看看那些使用数据科学和机器学习的公司面临的共同挑战。假设你的公司已经在大规模收集数据,需要用到分析工具,而且你已经认识到数据...

357100
来自专栏专知

概念解析:深入理解人工智能和机器学习

【导读】本文是数据科学家Vijay Yadav的一篇帖子,主要内容是介绍机器学习和人工智能的概念。对于很多刚刚入门人工智能的读者,可能会有这么一个疑问:人工智能...

37860
来自专栏灯塔大数据

原创译文 | 数据科学家告诉你:深度学习和机器学习不同

导读:上一期介绍了无人驾驶的发展现状,今天我们来了解一下深度学习和机器学习的不同实践和运用(文末更多往期译文推荐) ? GoodData数据科学和机器学习高级总...

34050
来自专栏Golang语言社区

多维度融合赋能视频 AI 的实践

本文主要分享了七牛人工智能实验室在视频 AI 方面的一些工作,分别有两个关键词:一个是多维度融合,另外一个关键词是视频 AI 。

14020
来自专栏企鹅号快讯

AI、机器学习和深度学习的关系及区别

作者:Rahul Sharma 来源:http://techgenix.com/author/rsharma/ 编译:FintechProbe 人工智能不再是科...

25980
来自专栏量子位

普通码农入门机器学习,必须掌握这些数据技能

王瀚宸 编译自 InfoWorld 作者 Ted Dunning MapR首席应用架构师 量子位 出品 | 公众号 QbitAI ? 其实,机器学习一直在解决着...

32350
来自专栏机器之心

前沿 | 物理学家提出新算法:将量子机器学习扩展到无限维度

选自phys.org 作者:Lisa Zyga 机器之心编译 参与:吴攀、李亚洲 物理学家已经开发出了一种可以处理无限维度(infinite dimensio...

30180
来自专栏目标检测和深度学习

【谷歌机器学习课程公开了!】Google AI 教育项目今起免费开放,完美支持中文

【新智元导读】3月的第一天,谷歌就为各级别的AI开发者和研究人员带来了福利:免费的机器学习和人工智能课程。首先推出的机器学习速成班课程约为15小时,包括互动课程...

41580
来自专栏人工智能的秘密

人工智能芯片是什么?有什么用?

2018年1月9日,全球规模最大的2018北美消费电子产品展在美国拉斯维加斯拉开帷幕。本次参展的科技企业超过4000家,包括高通、英伟达、英特尔、L...

30270

扫码关注云+社区

领取腾讯云代金券