前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >FKGE:合格的知识图谱嵌入已经学会保护隐私啦!

FKGE:合格的知识图谱嵌入已经学会保护隐私啦!

作者头像
NewBeeNLP
发布2021-08-20 11:23:49
7320
发布2021-08-20 11:23:49
举报
文章被收录于专栏:NewBeeNLPNewBeeNLP

本文介绍我们最近的一项被CIKM 2021录用的工作《Differentially Private Federated Knowledge Graphs Embedding》:

Paper:https://arxiv.org/abs/2105.07615

摘要

知识图谱嵌入在知识表示、推理和数据挖掘等应用中起着十分重要的作用。然而,对于多个跨领域的知识图谱来说,目前最先进的嵌入模型无法在保护数据交换过程中产生的隐私的同时,充分利用来自不同知识领域的数据和信息。并且集中式的嵌入模型无法拓展到广泛的现实世界的知识图谱中。

因此,我们提出了一种新颖的去中心化的可拓展学习框架——Federated Knowledge Graphs Embedding(FKGE),实现了在保护隐私的同时以异步和对等的方式学习不同知识图谱的嵌入

FKGE 利用成对的知识图谱间的对抗生成将不同领域的相同实体和关系转换到临近嵌入空间。为了保护训练数据的隐私,FKGE进一步实现了隐私保护对抗模型(PPAT),来保证原始数据不被泄露。我们进行了大量的实验来评估11个知识图谱上的FKGE模型,三重分类和链路预测任务的性能提高了近17.85%和7.9%,这证明了我们模型的质量取得了显著且一致的改进。

研究背景

知识图谱(KGs)的构建推动了很多应用的发展,如语义搜索、推荐系统等。目前已有几个大型通用的KGs,如Wikidata、Yago等。还有很多各种规模的专业领域的KGs,如地理学中的GeoNames 和语言学中的Lexvo。

然而大多数公司建立自己的商业KGs往往需要耗费很大的人力和计算成本。除了保护隐私外还有很多其他原因使得他们不愿分享自己的KGs。但很多时候,公司又必须通过交换信息来改善自己的数据质量和服务。

目前的知识图谱嵌入模型在对实体和关系进行向量表示时,当不同的KGs的嵌入空间对齐,则他们可以共享信息。但是向其他参与者透露向量表示会泄露隐私信息。即无法满足既想共享信息又想保护隐私的愿望。因此,我们希望设计一种更松散耦合的合理的方式来共享KGs。

我们引入允许多个数据所有者在不影响数据隐私的情况下协作构建模型的联邦学习,经过联合训练后,每个KG仍然不知道其他KGs的嵌入空间,但每个KG的嵌入却得到了改善。另外,在PPAT网络中引入的差分隐私(DP)机制可以保证:在训练每对对齐实体的嵌入时,任一单个的嵌入不会被泄露。这也允许我们针对不同的KGs使用不同的基础KG嵌入模型。

模型框架介绍

我们将来自分别独立的拥有者的知识图谱的集合表示为

\mathcal{KG} = \{g_1, g_2, g_3, ..., g_N\}

,其中N表示KGs的总数量。

\mathcal{KG}

内每个元素都来自于不同的数据库,并且不能互相访问。用

g_k = \{\mathcal{E}_k, \mathcal{R}_k, \mathcal{T}_k\} (1 \leq k \leq N)

表示

\mathcal{KG}

内的第k个知识图谱,其中,

\mathcal{E}_k

\mathcal{R}_k

\mathcal{T}_k

分别表示

g_k

中实体、关系和三元组的集合。每个三元组

(h,r,t) \in \mathcal{T}_k

由一个头实体

h \in \mathcal{E}_k

、一个尾实体

t \in \mathcal{E}_k

和一个两者之间的关系

r \in \mathcal{R}_k

组成。对于

\mathcal{KG}

内的任何一对知识图谱

(g_i, g_j)

,我们假设通过秘密哈希函数可以得到对齐实体集

\mathcal{E}_i \cap \mathcal{E}_j

和关系集

\mathcal{R}_i \cap \mathcal{R}_j

。我们的目标是利用得到的对齐实体集和关系集进一步改进任一单个知识图谱的所有嵌入。

下图是FKGE的整体框架。每个知识图谱的拥有者在本地训练自己的实体

\mathcal{E}_i

和关系

\mathcal{R}_i

的嵌入,基于训练后的嵌入,FKGE从成对的KGs聚合对齐实体和关系的嵌入,然后以联邦学习的方式更新嵌入。对于来自任何一对知识图谱(如:

(g_i, g_j)

)的对齐实体和嵌入,FKGE存在一个秘密通道来优化

\mathcal{E}_i \cap \mathcal{E}_j

\mathcal{R}_i \cap \mathcal{R}_j

的嵌入,并进一步分别改进每个知识图谱内

\mathcal{E}_i \cup \mathcal{R}_i

\mathcal{E}_j \cup \mathcal{R}_j

的嵌入。另外,FKGE提出了一种联合训练机制:通过广播来促进各方的共同进步。更具体地说,如果

g_i

g_j

得到了改进,那么它将向其他KGs广播信号来进一步提高整体结果。否则,它将会变回联合前的原始嵌入。

通过下面的例子并配合上图,来更清晰地介绍FKGE框架。起初,

g_1

,

g_2

,

g_3

分别在本地训练自己的嵌入,第一次联合得到了

(g_1,g_3)

,

(g_2,g_1)

(g_3,g_2)

三对KGs,联合后

g_1

g_2

得到了改进,而

g_3

训练所需的时间更久且没有得到改进,所以

g_3

回到了最初的嵌入。在第二次联合中,

g_1

g_2

配对得到了

(g_1,g_2)

(g_2,g_1)

,并且只有

g_1

得到了改进,

g_2

则会回溯到先前的嵌入。由于

g_3

仍然在训练过程中,它将不参与第二次联合并在没有可以配对的KG存在时进入睡眠状态。第三次联合中

g_1

完成了训练并唤醒了

g_3

,形成了

(g_1,g_3)

,

(g_1,g_2)

(g_4,g_1)

三对知识图谱。整个训练将在所有KGs都没有改进时结束。

模型设计详述

PPAT——隐私保护对抗模型

对于具有对齐实体

\mathcal{E}_i \cap \mathcal{E}_j

和关系

\mathcal{R}_i \cap \mathcal{R}_j

(g_i, g_j)

,FKGE利用GAN结构统一对齐实体和关系的嵌入。但是由于神经模型可能会记得输入并且能够从对应的输出中重建输入,隐私忧患仍然存在。为进一步解决隐私问题,我们引入差分隐私将生成的嵌入私有化。由于包含和排除某个特定的嵌入不会对结果分布产生很大的影响,所以差分隐私能够为保护生成器输出的任何单个的嵌入提供强有力的保证。差分隐私的定义如下:

定义1(相邻数据集):如果

\exists x \in D \; s.t.\; D-\{x\}=D'

,那么我们称

D, D'

为相邻数据集。

定义2(差分隐私):对于任意两个相邻数据集

D, D'

以及输出的任何一个子集

O

O \subseteq R

),如果存在一个域为

D

、范围为

R

的随机算法

M

满足下式,则称

M

可以提供

(\epsilon,\delta)

-差分隐私:

Pr[M(D) \in O] \leq e^{\epsilon}Pr[M(D')\in O]+\delta

其中,

\epsilon

表示隐私预算。由于相邻数据集的算法输出相近,所以

\epsilon

越小,隐私保护效果越好,模型效用也越低。

\delta

表示信息意外泄露的概率。基于上面的定义,PATE-GAN提出了一种修订的GAN结构,通过将PATE机制和教师、学生鉴别器一起应用来生成差异私有的生成器输出。基于上面的说明,我们实现了PPAT网络。

PPAT网络的结构如上图。PPAT网络将原来GAN结构中的鉴别器替换为多个教师鉴别器和一个学生鉴别器,以实现生成嵌入的差分私有。具有参数

\theta_G

(也就是平移映射矩阵

W

)的生成器

G

位于

g_i

的数据库内,具有参数

\theta_S

的学生鉴别器

S

和具有参数

\theta_T^1,\theta_T^2,...,\theta_T^{|T|}

的多个教师鉴别器

T=\{T_1,T_2,...,T_{|T|}\}

位于

g_j

的数据库内。

g_i

代表客户端,

g_j

代表主机。主机负责生成器和所有鉴别器的反向传播计算,而客户端仅传输其生成的嵌入并接收梯度以更新其生成器参数。我们用

X=\{x_1,x_2,...,x_n\}

表示

g_i

\mathcal{E}_i \cap \mathcal{E}_j

\mathcal{R}_i \cap \mathcal{R}_j

的嵌入,用

Y=\{y_1,y_2,...,y_n\}

表示

g_j

\mathcal{E}_i \cap \mathcal{E}_j

\mathcal{R}_i \cap \mathcal{R}_j

的嵌入。生成器

G

的目标是通过让

G(X)

尽可能相似于

Y

生成对抗样本,使学生鉴别器

S

无法区分出它们。生成器损失的目标函数为:

L_G(\theta_G ; S) = \frac{1}{n} \sum_{m=1}^{n} \log(1-S(G(x_m);\theta_G)),

其中,

G(X) = W X

,S表示学生鉴别器。

教师鉴别器的学习目标和原始鉴别器相同——区分假样本

G(X)

和真实样本

Y

。唯一的区别是,教师鉴别器是在不相交的子集上训练的。教师鉴别器的损失为:

L_T^{i}(\theta_T^{i} ; G) = - [ \sum_{m=1}^{n}\log(1-T_i(G(x_m) ; \theta_T^i))+\sum_{y_k \in D_i}\log (T_i(y_k ; \theta_T^i) )],

其中,

D_i

表示由

T_i

的数据集

X

Y

组成的满足

|D_i| = \frac{n}{|T|}

的一个子集,不同子集间没有交集。

学生鉴别器S的学习目标是对给定了聚合噪声标签的生成样本进行分类。更确切地说,教师鉴别器的预测结果和随机注入的拉普拉斯噪声将决定S的标签。PATE机制如下:

PATE_\lambda(x) = \mathop{\arg\max}_{j \in \{0,1\} } (n_j(x)+V_j),

其中,

V_0

,

V_1

是两个独立同分布的引入到教师鉴别器预测结果中的噪声,并且都呈参数为

\lambda

的拉普拉斯分布。

n_j(x)

表示将输入

x

预测为类别

j

的教师的数量:

n_j(x) = |\{T_i:T_i(x) = j\}| \text{\quad for } j = 0, 1.

然后学生鉴别器利用带有噪声标签的生成样本在主机数据库上进行训练,学生鉴别器损失函数为:

L_S(\theta_S ; T,G) = \frac{1}{n} \sum_{i=1}^{n} [\gamma_i \log S(G(x_i); \theta_S)+(1-\gamma_i) \log(1-S(G(x_i); \theta_S))],

其中,

\gamma_i = PATE_\lambda(x_i)

,即教师鉴别器选出的聚合噪声标签。

PPAT模型的流程大致如下:X中对齐实体和关系的原始嵌入被提供给生成器来生成对抗样本,之后会被传输到主机的所有教师鉴别器。通过在教师鉴别器的选择结果中添加拉普拉斯噪声满足差分隐私的要求。然后学生鉴别器由带有聚合标签的合成嵌入训练,其中包含教师鉴别器选出的0/1。The Post-Processing Theorem说明数据独立映射f与差分私有的算法M的组合也是差分私有的。根据该定理,学生鉴别器S也是差分私有的,这是因为它被差分私有的标签训练。另外,生成器G也是差分私有的,是因为G由学生鉴别器S训练。因此传输的嵌入是合成且差分私有的,是因为它们是生成器G的输出。在训练过程中,主机在本地计算生成器和所有鉴别器的损失函数:使用学生鉴别器损失和教师鉴别器损失的梯度在本地更新鉴别器的参数,同时生成器损失的梯度返回给生成器以更新其参数。因此,

g_i

g_j

都无法访问对方的嵌入或是原始数据。因此,对于知识图谱所有者的任何参与者,原始数据的隐私都受到保护。

联合训练

对于多个知识图谱,我们在

\mathcal{KG}

中的任一对

(g_i, g_j)

间构造PPAT网络,其中,

\mathcal{E}_j \cap \mathcal{E}_i \neq \emptyset

\mathcal{R}_j \cap \mathcal{R}_i \neq \emptyset

,所以最多可以同时得到

2\times\binom{\mathcal{N}}{2}

个PPAT网络。对于任一对知识图谱

(g_i, g_j)

,至少分别存在一个客户端和一个主机。另外,异步和去中心化的设置允许单个知识图谱拥有者选择是否与其他拥有者合作。合作过程可以被描述为握手协议。

g_i

存在ready、busy、sleep三种状态。Ready表明

g_i

拥有可用的计算资源并且积极与其他KGs合作。Busy表明

g_i

没有足够的资源,此时不会响应任何的合作请求。并且,合作者将会被放进队列,直至

g_i

完成工作准备好进行合作。Sleep表示尽管

g_i

具有计算资源,但是不会接受任何合作请求。也就是说,如果ready时不能找到一个合作者,那么就会转换为sleep,并会在特定时间段或是收到合作请求后唤醒到ready状态。

g_i

g_j

之间成功的握手协议需要

state(g_i) \neq Busy, state(g_j) \neq Busy

,并且至少二者之一为ready状态。

实验与论证

我们选取11个不同规模的知识图谱,使用相同类型的具有相同配置的GPU设备在11个独立进程上进行所有的对比实验。FKGE 框架与不同的 KGE 方法兼容。我们选择OpenKE中流行且简单的基于翻译的模型:TransE、TransH、TransR 和 TransD,来评估三重分类和链路预测任务下不同方法的性能。两个任务的实验结果均表明了FKGE模型的有效性和适应性。

另外,我们还进行了消融研究,在对齐实体和关系的有效性、对齐实体的规模、嵌入维度和噪声规模四个方面验证了FKGE的有效性。最后还在实验的时间成本上论证了FKGE的可拓展性。

综述

本篇论文提出了一种新型的知识图谱嵌入模型(FKGE),它具有以下特征:

  1. 异步和去中心化:与基于客户端的集中模型不同,FKGE 将来自不同域的 KG 与对抗性网络配对。
  2. 可拓展并可与很多基础嵌入模型兼容:异步和去中心化的设置使得配对的知识图谱之间可以并行计算。此外,FKGE 可以通过握手协议作为现有 KG 嵌入方法的元算法。
  3. 保护隐私,保证原始数据不被泄露:FKGE 的设计不需要合作者之间的原始数据传输,并且传输的生成嵌入是差分私有。

Code:https://github.com/HKUST-KnowComp/FKGE

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 NewBeeNLP 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档