干货 | AAAI 2018入选论文解读:关于网络表示学习的最新研究

AI 科技评论按:以 Facebook、Twitter、微信和微博为代表的大型社交网络的快速发展,产生了海量体现网络结构的数据。如何用合理的方式表示这些数据是网络挖掘的关键问题,本文探讨的就是网络的表示学习问题。

在近期 GAIR 大讲堂举办的一期关于网络表示学习的直播中,来自浙江大学本科三年级的冯瑞同学讲解了关于网络表示学习的相关知识,以及他最新入选 AAAI 2018 的一篇论文的主要内容。本文根据冯瑞同学的直播分享整理记录,有删减,推荐大家点击阅读原文观看 GAIR 大讲堂提供的视频回放。

冯瑞,浙江大学本科三年级,ZJU DCD 实验室实习。AAAI 2018 入选论文一作。

分享主题:网络的学习表示

分享提纲:

  • 网络的表示学习问题和经典算法介绍
  • 欧式空间中保持无标度特性的可能性
  • 针对无标度网络表示学习的优化策略
  • 可保持时序信息的网络表示学习模型

社交网络中的表示学习

如何用合理的方式表示数据是网络挖掘的关键问题,表示学习的目的是为网络中的每一个节点分配一个某个线性空间中(比如欧式空间)的向量,使得这些向量能够保持原来网络的结构信息。接下来的分享内容讨论表示学习的诸多问题,比如在欧式空间中的无标度网络的表示学习,讨论是否保持网络的无标度特性,并对此优化以提高向量的表示能力。我们同时还讨论如何处理网络时序序列,使得表示向量能够保持时序信息。

什么是图嵌入

图嵌入是给图中的点找到一个映射,给每一个点分配一个向量表示。

图嵌入的应用

网络挖掘里经常会用到这项技术进行边的预测,节点的聚类,节点的分类。

关于社交网络的表示学习

社交网络最主要的特性是它是一个动态网络。社交网络是一个不断演进的过程,或者称为网络的时间序列。如果只看某一个时间的静态网络是不能反映全部的网络信息的。

接下来介绍这个模型就是解决这个问题,怎么把持续的信息加入到图嵌入中。它能反映用户之间的交互,信息传递的过程,用户之间的关系等特征。

复杂网络的另一个特征是它是一个无标度(scale-free)网络。关于无标度网络的介绍可以观看视频。

第一个模型是Dynamic Network embedding。下面是A和B的拓扑特征图。从图中,连接A的几个节点,相互之间也有了连接,可以看出A的影响力比B大。

上图中的演变过程是闭三角形过程。开三角形演变为闭三角形取决于K的影响力。

同时有多个开三角形演变为闭三角形的概率如何计算。

模型训练过程

关于应用

分别在移动网络,学术网络,服务器网络上进行了应用。在移动网络上判断是否电信欺诈,在网贷网络上判断用户是否还钱,在服务器网路上判断网络是否会崩溃。

网络重建和边预测

网络重建是给两个节点去预测两个节点间是否有条边。边预测是看是否能预测在未来某个时间是否出现一条边。

实验同时,使用了四个模型对照,Deepwork,TNE(Temporal Network Embedding) ,Node2vec,Dynamic Triad模型对照。

实验结果

下面来看无标度网络的表示学习

无标度网络的性质

上图中(a)表示原来网络的度分布,(b)的算法高估网络度比较高的点的概率,(c)是我们模型得到优化后的效果。

理论分析

论文中的解决方案

网络映射方法要保持一度和二度临近。如果两个节点有边就是一度临近。两个节点有很多公共邻节点成为二度临近。一个节点如果度很高的话,需要惩罚相邻节点的相似度。

两个模型,第一个是DP-Spectral(degree penalty based spectral embedding ),基于光谱嵌入的度惩罚。

第二个是DP-Walker,(Degree Penalty based Random Walk)基于随机游动的度惩罚。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-02-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

从基础概念到数学公式,这是一份520页的机器学习笔记(图文并茂)

1014
来自专栏AI科技评论

学界 | 一言不合就想斗图?快用深度学习帮你生成表情包

AI科技评论按:斯坦福大学的两个学生 Abel L Peirson V 和 Meltem Tolunay 发表了自己的 CS224n 结业论文—— 用深度神经网...

1115
来自专栏美图数据技术团队

干货 | 基于用户行为的视频聚类方案

在个性化推荐系统中,通常是由挖掘物品属性来理解用户兴趣,从而构建推荐模型。从用户行为去理解物品属性往往做得比较简单,通常只是一些简单的标签统计。为了深入到用户行...

1243
来自专栏CDA数据分析师

数据挖掘:聚类算法概述

本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。 聚类 VS 分类 分类是...

19910
来自专栏大数据挖掘DT机器学习

通俗易懂的机器学习入门指导

机器学习,也叫数据挖掘、模式识别;其定义很多。但大白话的说,机器学习要做的就是,现在有一些数据(比如你人人网好友和他们的发言),我们要对数据进...

3016
来自专栏何颖的专栏

【SPA大赛】移动app广告转化率预估算法优化思路及解决办法

本次腾讯社交广告算法大赛以移动app广告转化率预估为背景,以移动App广告为研究对象,预测App广告点击后被激活的概率,即给定广告、用户和上下文情况下广告被点击...

9080
来自专栏华章科技

从基础概念到数学公式,这是一份520页的机器学习笔记(图文并茂)

图解机器学习 正是对机器学习的过程中的痛苦有切身体会,我希望能做一份教程,以浅显易懂的方式去讲解它,降低大家的学习门槛。我为此花费了数月时间,经常做到...

1003
来自专栏人工智能

轻知识库︱apple.Turicreate关系网络分析以及社群发现

号外,最近公众号刚刚接入聊天机器人,由于没有充值每天只能对话1000句...目前可以讲段子、查天气、故事大全、测星座、斗图、菜谱、列车查询、附近饭店等功能。 S...

2107
来自专栏程序员的酒和故事

2018年最佳深度学习书单

摘要: AI人才缺口巨大?如果你想成为AI革命中的一员,那么你就必须要学习深度学习,看看这12本书,它们将成为你的利器! 我相信你应该知道人工智能,尤其是深度学...

4297
来自专栏QQ空间开发团队的专栏

有关照片聚类算法的思考

本文作者主要从聚类的规则、聚类效果、聚类的算法八个方面探讨有关照片聚类算法的思考。

4450

扫码关注云+社区