前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >知识图谱研讨实录02丨肖仰华教授带你理清知识图谱基础知识

知识图谱研讨实录02丨肖仰华教授带你理清知识图谱基础知识

作者头像
博文视点Broadview
发布2023-05-19 20:13:12
2350
发布2023-05-19 20:13:12
举报

知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。

知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。

课程主要目的和宗旨是系统讲述知识图谱相关知识,让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。

下面让我们通过第二章课程《知识图谱基础知识》的15条精华研讨,来进一步学习了解知识图谱技术内幕。

本课程配套教材《知识图谱:概念与技术》。

/ 以下为课程第二章《知识图谱基础知识》的研讨实录 /

1丨知识图谱有哪些典型应用?除了书本中的应用还有哪些?

 学生:

(1)直接应用:对数据精准的分析。精准分析、舆情统计、军情统计等。甚至精细化分析用户评论。

(2)智慧搜索:精准搜索意图,如精准分类、语义理解、个性化推荐。复杂多元化搜索,如表格、文本、图片、视频。

(3)智能推荐:场景化推荐,任务型推荐。如组装电脑,冷启动环境下的推荐,跨领域推荐。

(4)自然人机交互:人机交互将更加自然,对话式交互取代关键词搜索。

 肖仰华老师:很多同学还列出了反欺诈,金融风险相关的应用。这类应用其实在知识图谱出来之前,在关联数据分析、网络数据分析等领域就有此类应用了。所以金融相关的关系网络也可以视作是知识图谱,但是其分析更接近图分析、复杂网络分析。

2丨数据、信息与知识的差别是什么?

 学生:数据是对客观世界的符号化记录,信息是被赋予意义的数据,知识是信息之间有意义的关联 。知识作为信息加工提炼后的结晶,是数据与信息中的精华。事实上,对数据与信息的记录往往只是手段,而对知识的获取与传承却是人类社会的根本目标。

3丨知识图谱中的知识有哪些典型类型?分别举例。

 学生:

(1)事实知识。例如,(柏拉图,出生地,雅典)。

(2)概念知识。例如,(柏拉图 isA 哲学家),或者(唯心主义哲学家 subclassOf 哲学家)。

(3)词汇知识。例如,(妻子,同义,老婆)。

(4)常识知识。例如,如果X是一个人,那么X要么是男人,要么是女人。

4丨什么是领域知识图谱?与通用知识图谱有何区别以及联系?

 学生:领域知识图谱(DKG)就是关注特定领域知识的知识图谱。它与通用知识图谱(GKG)的区别在于:

(1)从知识表示层面来看,GKG涵盖的范围明显大于DKG,而DKG通常更深,涵盖的是细粒度的知识。(2)在知识获取层面,DKG对质量往往有着极为苛刻的要求。(3)在知识应用层面,DKG的推理链条相对较长,应用相对复杂。

同时,GKG与DKG的关系又是十分密切的:

(1)领域知识是通过隐喻或者类比,从通用知识发展而来的。(2)GKG与DKG相互支撑,具体来说,GKG给DKG提供高质量的种子事实,而DKG在建好之后,又可以反哺GKG。

 肖仰华老师:希望大家能真正明白这些差别,要能举出实际的例子。在实际应用中,应用较多的还是领域知识图谱,领域应用往往缺失数据,但是专家知识丰富,如何利用专家知识弥补数据不足是个关键问题。我们大家所熟悉的深度学习这些机器学习模型在缺失数据的情况下能力有限,利用专家知识就是最为重要的思路之一,也是我们一直强调来自专家的符号知识一定要与统计学习模型融合的原因,希望大家对这些前沿问题能够形成深刻理解。

5丨知识图谱有哪些分类维度?分别给出每类中的典型。

 学生:从四个维度进行分类 :1. 按照是通用还是专用领域,可以分为通用知识图谱、领域知识图谱和企业知识图谱。2. 按照构建方式,可以分为全自动、半自动以及以人工为主构建的知识图谱。3. 按照语言,可以分为单语言(比如英语、汉语)和多语言知识图谱。4.按照知识图谱中的知识类型,可以分为概念图谱、百科图谱(涵盖以实体为中心的事实知识)、常识图谱和词汇图谱。

6丨知识图谱与哪些计算机学科有关系?有着怎样的关系?

 学生:知识表示、数据库、机器学习、nlp、信息检索、数据挖掘、可视化分析。知识图谱的狭义概念是一类语义网络,而语义网络知识是各种知识表示的一种。知识图谱与nlp关系密切,知识图谱可以用做支撑nlp的背景知识。知识图谱实现对数据的高效管理,包含查询表达,查询处理等都与机器学习有关。

 肖仰华老师:的确,知识图谱与计算机的很多子学科有关系。事实上,不同学科对知识图谱的看法都不尽相同。知识图谱是一个综合性强,涉及多学科的新型交叉学科。不同学科背景的学者看待知识图谱有着不同的视角,很容易得出不同的观点与结论。这就好比盲人摸象,不同学者眼中的知识图谱是不同的。我们对待知识图谱这样的新兴学科应该秉持开放包容、兼收并蓄的心态,静待时间来检验真理。

7丨什么是知识表示?知识表示的关键要素是什么?知识表示可以如何分类?

 学生:知识表示是研究用机器表示知识的可行性、有效性的一般方法,是一种数据结构与控制结构的统一体,既考虑知识的存储,又考虑知识的使用。知识表示可看成是一组描述事物的约定,把人类知识表示成机器能处理的数据结构。

 肖仰华老师:需要注意几点:

1、知识表示主要分为符号表示和数值表示,这样的分类是一种方式,是可以的。

2、图论、逻辑学、概率论,是按照其支撑学科进行分类,也是合理的。

此外, 将融合了专家知识的概率模型,包括概率图模型、马尔可夫决策过程等归结为一种知识表示而非统计学习模型,这是一个新尝试,与传统的人工智能书籍的做法不同。传统的知识表示书籍,一般不会把上述统计模型视作知识表示,但是在越来越多的实际应用中 ,需要表达决策逻辑,决策过程,首先就需要表示,所以,在我们课程里,将其视作一类知识表示也是合适的。

8丨知识图谱有哪几种基本的表示方式?各自优缺点是什么?

 学生:(1)基于图的表示。优点为图模型是知识图谱的逻辑表达模型,是人们最容易理解的一种表示。缺点是机器难以理解。(2)基于数值的表示。优点是可以将知识图谱表示为低维稠密实值向量,能让计算机有效地处理和利用知识图谱。缺点是人不易理解,不直观。

9丨知识图谱数值表示学习,有哪几类典型方法?概述其基本思路。

学生:(1)基于距离

SE模型:两个实体属于同一个三元组时,它们的向量表示在投影后的空间中也应该彼此靠近。

(2)基于翻译

TransE:头实体利用关系进行翻译后应该尽可能的接近尾实体;

TransH:头尾实体在关系相对应的超平面上的投影彼此接近;

TransR:头尾实体在关系空间中的投影彼此接近;

TransD:在TransR的基础上,对于头尾实体采用不同的映射。

肖仰华老师:知识图谱的向量化学习是近期的研究热点,本章所述内容仅包含早期的几个经典模型。当前的这些研究工作在落地过程中仍有待解决的问题,比如,提升方法的可伸缩性。大量的学习方法难以适应大规模知识图谱,保证图谱的语义,在向量化学习过程中,图谱属性与关系的语义信息。信息会丢失,所以如何保留图谱的语义仍是难题之一,知识图谱表示学习仍然有很多问题可以研究。

10丨谓词逻辑与产生式规则有何差别?

 学生:谓词逻辑可以表达一个非真即假的陈述。而产生式规则常用于表示事实与规则,以及相应的不确定性度量。

很多产生式规则具有不确定性,而逻辑谓词则不允许。产生式规则可以表示动作,而谓词逻辑只能表示命题。

11丨框架表示的理论基础是什么?其基本观点是什么?

 学生:理论基础是框架理论。其基本观点是人们对现实世界中各类事物的认知都是以框架的结构存储在记忆中的。当人面临新的情境时,会从记忆中找出一个合适的框架,并根据实际情况对这一框架的细节进行加工、修改和补充,形成对新情景的认识并存入人脑中。

12丨有哪些树形的知识表示?在故障诊断应用中使用怎样的树形表示?其基本特征是什么?

 学生:决策树,故障诊断用故障树(树形逻辑因果关系图),基本特征是父节点是产生故障的结果,也称输出事件,子节点是产生故障的原因,也称输入事件。利用逻辑符号连接子节点和父节点。

 肖仰华老师:我之所以在课程里提这两颗树,是因为太多实际应用可以用这两颗树解决。很多企业抛出的实际问题,用知识图谱解决不了,用这两颗树可以解决。在实际应用中,大家千万不要教条,不是什么都可以用知识图谱来表达和解决的。

13丨概率图模型与马尔可夫随机场是什么关系?

 学生:马尔科夫模型是一种无向概率图模型,其与马尔科夫链并不是很一样。马尔科夫链的节点是状态,边是转移概率,是template CPD的一种有向状态转移表达。而马尔科夫模型是与贝叶斯模型并列的一种概率图模型。其作用是描述互相影响,互相作用,不存在因果关系的两个随机变量之间的关系。因为作用是相互的,所有马尔科夫模型的边是无向的,或者可以说是双向的。

 肖仰华老师:pgm 是 DL 之前的热点,且还会继续成为热点。沿着 pgm 仍有大量工作可做,希望大家给予足够关注,而不是什么都是 DL。

14丨MC 与 MDP 以及 POMDP 三者之间是什么关系?

 学生:MC 的一个扩展是 MDP,MDP 在 MC 的状态集与转移矩阵基础上增加了动作集合与奖励函数。POMDP 在 MDP 基础上进一步发展,不同于 MDP, POMDP 的当前状态是不确定的,换言之是若干状态的一个概率分布。

 肖仰华老师:大家可以通过 dalphe keler 的 probalistic graphic model 深入学习这些概念。

15丨马尔可夫逻辑网与谓词逻辑知识库以及马尔可夫随机场有着怎样的关系?

 学生:MLN 是将一阶逻辑和马尔科夫随机场结合起来的模型。传统的一阶逻辑知识库被视为在一系列可能世界上所施加的一组硬约束,符合条件的可能世界不能与知识库中任意一条规则冲突。MLN允许一个可能世界与知识库中规则冲突,并以概率表示。

 肖仰华老师:MLN 又是一个被 DL 抢了风头的技术,DL 起来之前,MLN 那几年很火,客观地讲,MLN 背后的思想是很值得称赞的。谓词逻辑、概率模型、图模型三者融合,应该再没有比这个建模能力再强的。但是 PGM、MLN 这类模型在实际应用中关键要解决计算效率问题。

图书推荐

《知识图谱:概念与技术》

肖仰华 等 编著

本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。

本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。

(扫码了解本书详情)

▶ 研讨实录回顾

如果喜欢本文

欢迎 在看留言分享至朋友圈 三连

热文推荐 


点击阅读原文,了解本书详情~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档