作者:Chun Wang, Shirui Pan, Ruiqi Hu, Guodong Long, Jing Jiang, Chengqi Zhang 发表时间:2019年6月15日 arXiv 论文地址:https://arxiv.org/pdf/1906.06532.pdf
所谓目标导向,就是说特征提取和聚类任务不是独立的,提取的特征要在一定程度上有利于聚类,那么如何实现?可以通过自训练聚类的方式,将隐藏图嵌入产生的软聚类分配与聚类联合优化。
::: Two-Step的意思是图嵌入的生成和聚类是两个独立的部分,本文所提出的模型图嵌入和聚类之间联合优化。
::: 这幅图的结构也是非常清晰明了,分为两个部分:
自然而然的,该任务的目标函数就由两部分组成,重建损失和聚类损失:\mathcal{L}=\mathcal{L}_r+\gamma \mathcal{L}_c ,下面分别介绍图注意力自动编码器和自训练聚类模块:
图注意力自动编码器是GAT的变体,修改了注意力系数的计算方式,在GAT的基础上增加了t阶邻居的拓扑结构信息。具体来说通过计算以下公式:
M=(B+B^2+...+B^t)/t
其中,如果e_{ij} \in E, B_{ij}=1/d_{i} ,否则B_{ij}=0 。d_i是节点i的度。注意力系数通过以下公式计算得到:
其中,\delta是激活函数LeakyReLU。堆叠两层图注意层得到图注意力自动编码器的编码器部分:
解码器部分使用内积解码器:
重建损失为:
使用t分布来衡量图嵌入与k-means聚类中心的相似度:
q_{iu}表示节点i属于簇u的概率,将其看作是每个节点的软聚类分配标签,如果值越大,那么可信度越高,通过平方运算将这种可信度放大:
最小化P和Q之间的KL散度损失达到自训练的目的: