学习
实践
活动
工具
TVP
写文章

期刊向量:学科关系的语义表示

如何判断期刊之间的相关关系,将期刊划分到合适的学科,是期刊分区表重要的工作内容。

通常,我们会构建期刊的引用关系网络,然后根据期刊之间的相互引用,以及与其它期刊的引用情况,来计算两本期刊之间的相关性。最后,把相关性作为引文网络中两个期刊节点之间的边的权重,用社团聚类方法给期刊划分学科;也可以用PCA/MDS对期刊相关性矩阵降维,然后用K-means等聚类算法给期刊划分学科。

现在机器学习,尤其是深度学习技术的发展,图嵌入方法(graph embedding)在众多的复杂网络节点聚类、分类和推荐等任务中展示更有的效果。我们能否有更好的方法或者工具,将基于期刊引用的相关关系更好表示出来。这个表示方法能将使用更好的机器学习方法,将期刊划分到更加合适的学科。

Aditya Grover和Jure Leskovec提出的node2vec就提供了很好的思路。node2vec将复杂网络中的节点用低维稠密的向量表示,最大程度保存了邻居节点之间的关系[1]。网络中任意两个节点的相关关系,就是对应两个向量的相关性。而且,更小信息损失的低维向量,使得更多机器学习的方法引入到网络节点关系标识任务成为了可能。

下面,我们将尝试图嵌入方法node2vec在期刊表示上的潜在应用。

首先,构建期刊引用网络;然后,用node2vec方法训练期刊;最后,得到每本期刊的32维向量。两个向量之间的相关性越高,表示这两本期刊的相关性也越高,非常的直观。

下图是我们将期刊向量用t-sne映射到二维平面,可视化所有的期刊。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190531A0ESUK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券