前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LLM很酷,KG也很酷

LLM很酷,KG也很酷

作者头像
绿盟科技研究通讯
发布2023-09-12 17:26:11
6250
发布2023-09-12 17:26:11
举报

一. 引言

正如gpt等大规模语言模型(Large Language Model,LLM)在表征抽象、深层语义上的优势一样,知识图谱(Knowledge Graph,KG)也能够以一种符号化的方式组织结构化存在的具象概念。同时,知识图谱也可以通过图表示学习、图算法获得图上实体、关系的向量化表示,进而基于向量实现推理计算。

对比LLM和KG,LLM经过大量语料的训练,使得词语能够考虑并保存词语上下文的语义信息;而KG仅对信息抽取后的少部分词语进行训练,训练得到的节点特征向量不如LLM中词向量的表达充分。LLM在训练过程中不区分名词和动词,也不区分动词的具体内容,而是一律使用一个低维稠密的词向量表示;但KG不仅区分名词(点)和动词(边),还人工区分不同边关系(一般是动词)的类型,如本体构建阶段就对每一种边关系及其所连接的节点进行人工敲定。

基于LLM的生成结果是未知的,如下图1使用GPT3.5抽取文本中的“compromised data”事件,抽取结果为“Local Admin user credentials”,而非原文中的“credentials of a Local Admin user”。这一现象展示了LLM的生成特点,即无论使用多少万亿级别的参数规模,LLM都是依据概率函数输出几个“最大可能性”的词语。但这种“未知”在KG上的推理过程则表现得更为“确定”,事实上KG的输出同样使用了概率函数去输出最大可能性的结果,但区别在于KG的输出主体是知识图谱上的图节点。同时,在推理过程中,可以通过设置游走路径去获得确定实体类型的节点,从而进一步减少了输出的不确定性。

图1. LLM文本抽取示例

除此以外,KG不仅可以利用图表示学习实现推理、问答等应用,还可以基于图可视化及自身的结构特点生成有效的推理规则,进而帮助相关业务的开展。如图2所示,为真正了解利用知识图谱并实现图上应用,本文将分别从图数据的存储优势、信息抽取技术、图表示学习和推理算法等方面进行介绍。

图2. 知识图谱技术体系

二.知识图谱相关技术

2.1

符号化表示

在将图谱中的点转化为向量之前(图表示学习),我们应该先了解图的符号化表示方法。如下图3所示,知识图谱可以表示为属性图和RDF图,两者的最大区别在于是否将属性信息提炼出来作为图上的一个节点。RDF图上只存在节点和边,节点对应于图上的头尾顶点,边对应头尾顶点之间的链接,同时,由节点和边构成的“主语-谓语-宾语”结构也被称为三元组。

图3. 知识图谱的符号化表示

2.2

关系的显式表达

知识图谱的最大优势在于“关系的显式表达”,这一特征在数据的存储方式上也有鲜明的体现。如下图,关系型数据库(RDBMS)仅存储节点信息,却不存储关系(关系是通过二维表的外键来隐式表达的),这一方式将带来查询和计算的复杂性。而原生图通过邻接列表显式地存储了图中的边关系和相邻节点信息,若同时引入图上的查询语句(如Cypher、gremlin等),可以极大地提升数据的查询效率。

如图4案例可以鲜明的体现关系显式的性能优势。假设一个图谱包含1,000,000个“person”,且每个“person”存在50个“friend”关系,那么使用RDBMS进行3跳查询的耗时为30s,进行4跳查询的耗时达到1500+s,进行5跳查询的耗时将无法估量,而此时使用原生图的查询耗时仍在3s之内。

图4. 知识图谱的存储结构

2.3

命名实体识别技术

搭建好数据库,你开始构建自己的知识图谱。但我们所获取的大多数数据都是非结构化的,如何对非结构化文本进行应用并构建对应的知识图谱,就需要命名实体识别(Named Entity Recognition,NER)技术的参与。下图5描述了一种经久不衰的NER框架—编码-解码框架。

图5. 编码-解码框架

编码解码框架是一种著名的AI框架,编码器先将输入文本中的词语转化为词向量,然后使用RNN、LSTM、GRU等结构整合获得输入文本整体的语义向量,解码器对整合后的句向量进行解码,进而根据不同的NLP领域任务设计对应的输出主体,从而完整不同的NLP任务。NER任务的重点在于解码器的设计,如下图6展示了四种常用的解码方法,分别为序列标注、指针标注、基于token_pair的标注、基于span枚举的标注。

图6. 四种实体识别常用解码方法

2.4

图表示学习

结合实体识别后的抽取结果,以及人工设计的本体结构,就可以构造一张特定领域的知识图谱。那么如何利用图结构获取未知的隐含关系呢?这一部分需要图表示学习的参与。

图表示学习将节点映射为向量表示,从而更多的保留图上的拓扑信息(图结构)和特征信息(节点特征)。图表示学习的目标是希望图上“接近”的节点,经过嵌入表示后,能够在向量空间上也“接近”。其中,如图7所示,图上的接近是指节点在语义、逻辑、结构关系上的相似,而向量的接近是指通过欧氏距离等方法计算得到的接近。

图7. 图表示学习过程

本文将介绍两类著名的图表示学习方法。第一种为基于随机游走的方法,如DeepWalk、node2vec、LINE、metapath2vec等。如图8所示,这类方法的主要思想是从图上的一个节点出发,以一定概率向其他节点转移,从而获得了一条随机采样的节点序列,进而将这条序列输入NLP的语言模型中,从而将图表示学习转化为word2vec获取词向量的问题。

图8. 基于随机游走的图表示学习方法

第二种为基于局部子图的方法,如GCN、VGAE、GAT、GraphSAGE等。如图9所示,这类方法将每个节点表示为相邻节点特征的组合,从而既捕获了该节点的结构信息(节点和哪些节点相互连接),又捕获了节点的特征(节点与接近的节点具有一定相似性)。这类在有效地捕捉子图的特征的同时,又有效减少计算量和参数数量,因此,在实际应用中,基于局部子图的方法已经成为了一种重要的图嵌入技术,并在社交网络分析、推荐系统等领域得到了广泛应用。

图9. 基于局部子图的图表示学习方法

在网络安全领域,基于节点向量的距离计算可以用于制定防护策略。如

  1. 针对攻击组织(如“Lazarus”,‘UNC2452’,‘Equation Group’)和攻击模式实体(如‘勒索’,‘钓鱼’,‘恶意软件’等),可以通过欧式距离计算得到每个攻击组织最惯用的攻击方式。
  2. 针对漏洞实体,仍利用距离计算方法可以发现潜在的攻击路径和可能被攻击的目标.
  3. 针对攻击工具、攻击者、攻击目标等实体,可以通过向量推理算法计算三者之间的未知关系,进而帮助安全维护人员了解攻击背景、制定安全防护方案。

2.5

图的推理

利用获取的节点向量,可以实现图上关系推理,如Trans系列、DistMult等,均利用节点向量进行数学运算,从而对知识图谱中存储的知识进行推理和计算。如图10所示,trans系列将将三元组 (h, r, t) 表示为头尾实体向量之和的加法向量,即 h + r ≈ t。而DistMult将实体、关系和实体之间的关系表示为矩阵乘积的形式,即是用惩罚来表示头尾向量之间的关系。

图10. 图上关系推理方法

在网络安全领域,图的推理可以理解为:针对包含主机、路由器、交换机、防火墙等实体,端口连接状态、协议类型等关系,利用推理计算可以找到设备潜在的安全风险。使用点乘运算计算某设备和其他设备的相似性,结果越大,则两节点关系越紧密,从而可以在攻击的过程中,将攻击的目标从目标设备转移到关系紧密的设备上,从而在有限的资源下达到相同的攻击目的。

三.结合网络安全领域

在网络安全领域,知识图谱被广泛应用于威胁情报分析、安全事件响应、漏洞管理和渗透测试等方面。

首先,在威胁情报分析方面,知识图谱可以帮助安全团队收集包括黑客交易、漏洞利用、APT攻击等的安全数据,并将其表示成知识图谱的形式,以发现攻击者的隐藏行为、推断攻击者的攻击策略和能力,从而帮助企业更好地了解自身的风险状况。

其次,在安全事件响应方面,知识图谱可以帮助安全人员追踪攻击路径、恶意主机和漏洞利用的来源等信息,加速事件响应和修复漏洞,从而有效降低企业遭受攻击的影响。

除此之外,知识图谱还可以应用于漏洞管理和渗透测试方面。漏洞管理需要对已知漏洞和未知漏洞进行全面的收集、整理和分类,而知识图谱可以帮助自动化地构建漏洞库和检测漏洞。渗透测试则需要对被测试系统进行全面的安全性评估,而知识图谱可以用于指导和优化渗透测试的流程和结果。

内容编辑:创新研究院 卜 天

责任编辑:创新研究院 董炳佑

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-06 17:00,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 绿盟科技研究通讯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档