LLM很酷，KG也很酷

绿盟科技研究通讯

发布于 2023-09-12 17:26:11

6250

发布于 2023-09-12 17:26:11

一. 引言

正如gpt等大规模语言模型（Large Language Model，LLM）在表征抽象、深层语义上的优势一样，知识图谱（Knowledge Graph，KG）也能够以一种符号化的方式组织结构化存在的具象概念。同时，知识图谱也可以通过图表示学习、图算法获得图上实体、关系的向量化表示，进而基于向量实现推理计算。

对比LLM和KG，LLM经过大量语料的训练，使得词语能够考虑并保存词语上下文的语义信息；而KG仅对信息抽取后的少部分词语进行训练，训练得到的节点特征向量不如LLM中词向量的表达充分。LLM在训练过程中不区分名词和动词，也不区分动词的具体内容，而是一律使用一个低维稠密的词向量表示；但KG不仅区分名词（点）和动词（边），还人工区分不同边关系（一般是动词）的类型，如本体构建阶段就对每一种边关系及其所连接的节点进行人工敲定。

基于LLM的生成结果是未知的，如下图1使用GPT3.5抽取文本中的“compromised data”事件，抽取结果为“Local Admin user credentials”，而非原文中的“credentials of a Local Admin user”。这一现象展示了LLM的生成特点，即无论使用多少万亿级别的参数规模，LLM都是依据概率函数输出几个“最大可能性”的词语。但这种“未知”在KG上的推理过程则表现得更为“确定”，事实上KG的输出同样使用了概率函数去输出最大可能性的结果，但区别在于KG的输出主体是知识图谱上的图节点。同时，在推理过程中，可以通过设置游走路径去获得确定实体类型的节点，从而进一步减少了输出的不确定性。

图1. LLM文本抽取示例

除此以外，KG不仅可以利用图表示学习实现推理、问答等应用，还可以基于图可视化及自身的结构特点生成有效的推理规则，进而帮助相关业务的开展。如图2所示，为真正了解利用知识图谱并实现图上应用，本文将分别从图数据的存储优势、信息抽取技术、图表示学习和推理算法等方面进行介绍。

图2. 知识图谱技术体系

二．知识图谱相关技术

2.1

符号化表示

在将图谱中的点转化为向量之前（图表示学习），我们应该先了解图的符号化表示方法。如下图3所示，知识图谱可以表示为属性图和RDF图，两者的最大区别在于是否将属性信息提炼出来作为图上的一个节点。RDF图上只存在节点和边，节点对应于图上的头尾顶点，边对应头尾顶点之间的链接，同时，由节点和边构成的“主语-谓语-宾语”结构也被称为三元组。

图3. 知识图谱的符号化表示

2.2

关系的显式表达

知识图谱的最大优势在于“关系的显式表达”，这一特征在数据的存储方式上也有鲜明的体现。如下图，关系型数据库（RDBMS）仅存储节点信息，却不存储关系（关系是通过二维表的外键来隐式表达的），这一方式将带来查询和计算的复杂性。而原生图通过邻接列表显式地存储了图中的边关系和相邻节点信息，若同时引入图上的查询语句（如Cypher、gremlin等），可以极大地提升数据的查询效率。

如图4案例可以鲜明的体现关系显式的性能优势。假设一个图谱包含1,000,000个“person”，且每个“person”存在50个“friend”关系，那么使用RDBMS进行3跳查询的耗时为30s，进行4跳查询的耗时达到1500+s，进行5跳查询的耗时将无法估量，而此时使用原生图的查询耗时仍在3s之内。

图4. 知识图谱的存储结构

2.3

命名实体识别技术

搭建好数据库，你开始构建自己的知识图谱。但我们所获取的大多数数据都是非结构化的，如何对非结构化文本进行应用并构建对应的知识图谱，就需要命名实体识别（Named Entity Recognition，NER）技术的参与。下图5描述了一种经久不衰的NER框架—编码-解码框架。

图5. 编码-解码框架

编码解码框架是一种著名的AI框架，编码器先将输入文本中的词语转化为词向量，然后使用RNN、LSTM、GRU等结构整合获得输入文本整体的语义向量，解码器对整合后的句向量进行解码，进而根据不同的NLP领域任务设计对应的输出主体，从而完整不同的NLP任务。NER任务的重点在于解码器的设计，如下图6展示了四种常用的解码方法，分别为序列标注、指针标注、基于token_pair的标注、基于span枚举的标注。

图6. 四种实体识别常用解码方法

2.4

图表示学习

结合实体识别后的抽取结果，以及人工设计的本体结构，就可以构造一张特定领域的知识图谱。那么如何利用图结构获取未知的隐含关系呢？这一部分需要图表示学习的参与。

图表示学习将节点映射为向量表示，从而更多的保留图上的拓扑信息（图结构）和特征信息（节点特征）。图表示学习的目标是希望图上“接近”的节点，经过嵌入表示后，能够在向量空间上也“接近”。其中，如图7所示，图上的接近是指节点在语义、逻辑、结构关系上的相似，而向量的接近是指通过欧氏距离等方法计算得到的接近。

图7. 图表示学习过程

本文将介绍两类著名的图表示学习方法。第一种为基于随机游走的方法，如DeepWalk、node2vec、LINE、metapath2vec等。如图8所示，这类方法的主要思想是从图上的一个节点出发，以一定概率向其他节点转移，从而获得了一条随机采样的节点序列，进而将这条序列输入NLP的语言模型中，从而将图表示学习转化为word2vec获取词向量的问题。

图8. 基于随机游走的图表示学习方法

第二种为基于局部子图的方法，如GCN、VGAE、GAT、GraphSAGE等。如图9所示，这类方法将每个节点表示为相邻节点特征的组合，从而既捕获了该节点的结构信息（节点和哪些节点相互连接），又捕获了节点的特征（节点与接近的节点具有一定相似性）。这类在有效地捕捉子图的特征的同时，又有效减少计算量和参数数量，因此，在实际应用中，基于局部子图的方法已经成为了一种重要的图嵌入技术，并在社交网络分析、推荐系统等领域得到了广泛应用。

图9. 基于局部子图的图表示学习方法

在网络安全领域，基于节点向量的距离计算可以用于制定防护策略。如

针对攻击组织（如“Lazarus”，‘UNC2452’，‘Equation Group’）和攻击模式实体（如‘勒索’，‘钓鱼’，‘恶意软件’等），可以通过欧式距离计算得到每个攻击组织最惯用的攻击方式。
针对漏洞实体，仍利用距离计算方法可以发现潜在的攻击路径和可能被攻击的目标.
针对攻击工具、攻击者、攻击目标等实体，可以通过向量推理算法计算三者之间的未知关系，进而帮助安全维护人员了解攻击背景、制定安全防护方案。

2.5

图的推理

利用获取的节点向量，可以实现图上关系推理，如Trans系列、DistMult等，均利用节点向量进行数学运算，从而对知识图谱中存储的知识进行推理和计算。如图10所示，trans系列将将三元组 (h, r, t) 表示为头尾实体向量之和的加法向量，即 h + r ≈ t。而DistMult将实体、关系和实体之间的关系表示为矩阵乘积的形式，即是用惩罚来表示头尾向量之间的关系。

图10. 图上关系推理方法

在网络安全领域，图的推理可以理解为：针对包含主机、路由器、交换机、防火墙等实体，端口连接状态、协议类型等关系，利用推理计算可以找到设备潜在的安全风险。使用点乘运算计算某设备和其他设备的相似性，结果越大，则两节点关系越紧密，从而可以在攻击的过程中，将攻击的目标从目标设备转移到关系紧密的设备上，从而在有限的资源下达到相同的攻击目的。

三．结合网络安全领域

在网络安全领域，知识图谱被广泛应用于威胁情报分析、安全事件响应、漏洞管理和渗透测试等方面。

首先，在威胁情报分析方面，知识图谱可以帮助安全团队收集包括黑客交易、漏洞利用、APT攻击等的安全数据，并将其表示成知识图谱的形式，以发现攻击者的隐藏行为、推断攻击者的攻击策略和能力，从而帮助企业更好地了解自身的风险状况。

其次，在安全事件响应方面，知识图谱可以帮助安全人员追踪攻击路径、恶意主机和漏洞利用的来源等信息，加速事件响应和修复漏洞，从而有效降低企业遭受攻击的影响。

除此之外，知识图谱还可以应用于漏洞管理和渗透测试方面。漏洞管理需要对已知漏洞和未知漏洞进行全面的收集、整理和分类，而知识图谱可以帮助自动化地构建漏洞库和检测漏洞。渗透测试则需要对被测试系统进行全面的安全性评估，而知识图谱可以用于指导和优化渗透测试的流程和结果。

内容编辑：创新研究院卜天

责任编辑：创新研究院董炳佑

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营，绿盟科技创新研究院是绿盟科技的前沿技术研究部门，包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一，与清华大学进行博士后联合培养，科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向，从实践出发，结合公司资源和先进技术，实现概念级的原型系统，进而交付产品线孵化产品并创造巨大的经济价值。