作者:XUNKAI LI, YOUPENG HU, YAOQI SUN, JI HU, JIYONG ZHANG 发表时间:2020年8月 论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9181620
论文的作者认为Bo等人(也就是SDCN那篇文章)没有充分考虑复杂的图结构信息,但是Bo等人在文章中说了GCN学习了图结构信息,并且证明SDCN学习的数据表示具有不同阶结构信息的表示总和。
这个证明就是不断迭代Z,直至第一层,那么公式22左边一项就是和原始数据X相关,右边是不同阶的结构信息。从这来看,我认为Bo等人的观点没有毛病,可能LI等人为了说明问题而说明问题吧。我认为LI等人的大概意思是SDCN学的结构信息还不够,得加上图自编码器学到的特征。
这个模型看起来就稍微复杂了,但是仔细分析模块间结构还是很清晰的。下半部分看起来是不是很熟悉,和SDCN的结构很像,上半部分看起来是不是也很熟悉,不就是DAEGC嘛!整体来看,该模型通过AE编码属性信息,通过GAE编码结构信息,通过DenseGCN增加GCN的深度,通过三重自监督模块进行无监督自训练达到聚类的目的。
自编码器和图自编码器已经是老生常谈的问题了,就不再详细解释,如果不懂可以看看前面的文章:
自编码器 论文阅读03——《Structural Deep Clustering Network》
图自编码器 论文阅读02——《Attributed Graph Clustering: A Deep Attentional Embedding Approach》
不过值得注意的是,在这篇文章中,作者没有使用计算原始邻接矩阵和重构邻接矩阵间的距离,而是计算两个概率分布间的交叉熵。
两个节点相连接的概率通过以下公式计算
解码后得到的分布被形式化为
然后计算输入输入数据的邻接矩阵和重构矩阵间的交叉熵
DenseNet是卷积神经网络 (CNN) 的一种深层方法,它使用层之间的紧密链接来改善网络中的信息流,允许结果在每一层之间重复使用。
DenseGCN每一层的输入为
DenseGCN每一层的输出为
η是拼接函数,DenseNet的体现,利用了前l层以及原始数据的特征。
聚类结果分布Q
衡量两个编码器生成的向量与聚类中心的相似度,接着得到目标分布P
所谓三重自监督,就是通过三个部分的损失,联合优化目标损失函数。
该论文暂时没有找到源码,如果有的话后续补上。