干货 | AAAI 2018入选论文解读:关于网络表示学习的最新研究

AI 科技评论按:以 Facebook、Twitter、微信和微博为代表的大型社交网络的快速发展,产生了海量体现网络结构的数据。如何用合理的方式表示这些数据是网络挖掘的关键问题,本文探讨的就是网络的表示学习问题。

在近期 GAIR 大讲堂举办的一期关于网络表示学习的直播中,来自浙江大学本科三年级的冯瑞同学讲解了关于网络表示学习的相关知识,以及他最新入选 AAAI 2018 的一篇论文的主要内容。本文根据冯瑞同学的直播分享整理记录,有删减,推荐大家点击阅读原文观看 GAIR 大讲堂提供的视频回放。

冯瑞,浙江大学本科三年级,ZJU DCD 实验室实习。AAAI 2018 入选论文一作。

分享主题:网络的学习表示

分享提纲:

  • 网络的表示学习问题和经典算法介绍
  • 欧式空间中保持无标度特性的可能性
  • 针对无标度网络表示学习的优化策略
  • 可保持时序信息的网络表示学习模型

社交网络中的表示学习

如何用合理的方式表示数据是网络挖掘的关键问题,表示学习的目的是为网络中的每一个节点分配一个某个线性空间中(比如欧式空间)的向量,使得这些向量能够保持原来网络的结构信息。接下来的分享内容讨论表示学习的诸多问题,比如在欧式空间中的无标度网络的表示学习,讨论是否保持网络的无标度特性,并对此优化以提高向量的表示能力。我们同时还讨论如何处理网络时序序列,使得表示向量能够保持时序信息。

什么是图嵌入

图嵌入是给图中的点找到一个映射,给每一个点分配一个向量表示。

图嵌入的应用

网络挖掘里经常会用到这项技术进行边的预测,节点的聚类,节点的分类。

关于社交网络的表示学习

社交网络最主要的特性是它是一个动态网络。社交网络是一个不断演进的过程,或者称为网络的时间序列。如果只看某一个时间的静态网络是不能反映全部的网络信息的。

接下来介绍这个模型就是解决这个问题,怎么把持续的信息加入到图嵌入中。它能反映用户之间的交互,信息传递的过程,用户之间的关系等特征。

复杂网络的另一个特征是它是一个无标度(scale-free)网络。关于无标度网络的介绍可以观看视频。

第一个模型是Dynamic Network embedding。下面是A和B的拓扑特征图。从图中,连接A的几个节点,相互之间也有了连接,可以看出A的影响力比B大。

上图中的演变过程是闭三角形过程。开三角形演变为闭三角形取决于K的影响力。

同时有多个开三角形演变为闭三角形的概率如何计算。

模型训练过程

关于应用

分别在移动网络,学术网络,服务器网络上进行了应用。在移动网络上判断是否电信欺诈,在网贷网络上判断用户是否还钱,在服务器网路上判断网络是否会崩溃。

网络重建和边预测

网络重建是给两个节点去预测两个节点间是否有条边。边预测是看是否能预测在未来某个时间是否出现一条边。

实验同时,使用了四个模型对照,Deepwork,TNE(Temporal Network Embedding) ,Node2vec,Dynamic Triad模型对照。

实验结果

下面来看无标度网络的表示学习

无标度网络的性质

上图中(a)表示原来网络的度分布,(b)的算法高估网络度比较高的点的概率,(c)是我们模型得到优化后的效果。

理论分析

论文中的解决方案

网络映射方法要保持一度和二度临近。如果两个节点有边就是一度临近。两个节点有很多公共邻节点成为二度临近。一个节点如果度很高的话,需要惩罚相邻节点的相似度。

两个模型,第一个是DP-Spectral(degree penalty based spectral embedding ),基于光谱嵌入的度惩罚。

第二个是DP-Walker,(Degree Penalty based Random Walk)基于随机游动的度惩罚。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-02-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

一文教你如何用Python预测股票价格

翻译 | AI科技大本营(rgznai100) 参与 | 刘畅 编辑 | 周翔 【AI科技大本营导读】最近,A股尤其是上证指数走势凌厉,让营长有种身在牛市中的错...

4587
来自专栏大数据挖掘DT机器学习

将机器学习用到算法交易中

假设我有一个问题,我想根据一些人的身高和体重来判断性别。 我有一个数据表,数据里面有三个男的三个女的,我有他们体重身高的数据。现在有一个人性别不知道,我们怎么推...

3958
来自专栏杨熹的专栏

一文了解强化学习

虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应...

3536
来自专栏cloudskyme

算法——贝叶斯

简介 学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概...

35310
来自专栏james大数据架构

你必须要了解的大数据潮流下的机器学习及应用场景

  机器学习是一门人工智能的科学,能通过经验自动改进的计算机算法的研究。       机器学习是一个多学科交叉的领域,会涉及到计算机、信息学、数学、统计学、神经...

4208
来自专栏大数据文摘

Yann LeCun说是时候放弃概率论了,因果关系才是理解世界的基石

1814
来自专栏新智元

【干货】如何评价谷歌深度学习速成课程

1513
来自专栏云社区全球资讯抢先看

新的算法将一键修复损坏的数字图像

技术可以使用人工神经网络的力量来一次处理单个图像中的多种类型的图像噪点和图像模糊。

1732
来自专栏量子位

连LeCun都推荐的Fashion-MNIST数据集,是这位华人博士的成果

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 上周六,量子位在报道中提到德国时尚圈的科学家,推出一个名叫Fashion-MNIST的数据集。这个数...

3925
来自专栏人工智能快报

美俄科学家联合运用神经网络研制抗癌药物

据俄罗斯物理技术研究所报道,莫斯科物理技术学院(MOSCOW INSTITUTE OF PHYSICS AND TECHNOLOGY,MIPT)、InSilic...

3406

扫码关注云+社区