如何判断期刊之间的相关关系,将期刊划分到合适的学科,是期刊分区表重要的工作内容。
通常,我们会构建期刊的引用关系网络,然后根据期刊之间的相互引用,以及与其它期刊的引用情况,来计算两本期刊之间的相关性。最后,把相关性作为引文网络中两个期刊节点之间的边的权重,用社团聚类方法给期刊划分学科;也可以用PCA/MDS对期刊相关性矩阵降维,然后用K-means等聚类算法给期刊划分学科。
现在机器学习,尤其是深度学习技术的发展,图嵌入方法(graph embedding)在众多的复杂网络节点聚类、分类和推荐等任务中展示更有的效果。我们能否有更好的方法或者工具,将基于期刊引用的相关关系更好表示出来。这个表示方法能将使用更好的机器学习方法,将期刊划分到更加合适的学科。
Aditya Grover和Jure Leskovec提出的node2vec就提供了很好的思路。node2vec将复杂网络中的节点用低维稠密的向量表示,最大程度保存了邻居节点之间的关系[1]。网络中任意两个节点的相关关系,就是对应两个向量的相关性。而且,更小信息损失的低维向量,使得更多机器学习的方法引入到网络节点关系标识任务成为了可能。
下面,我们将尝试图嵌入方法node2vec在期刊表示上的潜在应用。
首先,构建期刊引用网络;然后,用node2vec方法训练期刊;最后,得到每本期刊的32维向量。两个向量之间的相关性越高,表示这两本期刊的相关性也越高,非常的直观。
下图是我们将期刊向量用t-sne映射到二维平面,可视化所有的期刊。
领取专属 10元无门槛券
私享最新 技术干货