《Attributed Social Network Embedding》论文学习笔记

一、研究背景

        本文提出了一种网络表示学习算法:将结构信息和属性信息同时输入深度神经网络,实现非线性特征抽象,相对传统的浅层神经网络语言模型,有较大性能提升。同时作者提出了离散属性信息的处理方式,是本文的贡献之一。

        多源信息融合的表示方法主要有以下几种:一、分别建立表示模型,简单拼接作为最终表示向量;二是训练过程中建立联合优化目标函数,实现线性融合;第三种就是作者提到的共同输入深层模型进行特征提取,实现非线性融合。

二、算法细节

        先贴模型框架,便于解释:

图1,模型框架

2.1结构信息输入

        输入是节点的one-hot表示,(我觉得这个地方是否换成邻接矩阵更好?)

        仍然采用node2vec算法思路产生context。定义节点对之间的条件概率如下:

       则全局优化函数定义如下:

       其中M表示节点数量。Ni表示邻居集合。        这里值得注意的是传统的 计算方式都是直接计算两个嵌入向量的点乘,然而文献[ ]指出这种方式限制了模型的表示能力并且造成了排序损失(ranking loss)。        作者采用了一个深度模型为节点间的相似性建模:

       这里将节点 的表示向量通过一个n层神经网络进行抽象后再与节点 作为邻居的表示向量相乘。

2.2属性信息输入

       这里作者考虑了不同类型的属性信息:离散-one-hot;文本-TF-IDF

       如图所示,我们对离散属性进行one-hot编码,对连续属性进行比如文档采用TF-IDF进行编码,得到初步表示向量

       而后,记特征向量 (加粗向量)有K个特征, 加粗表示 矩阵中的第 列向量,则抽象的属性信息向量表示为: ,这里注意加粗 ,表示向量的线性累加求和。

      这里对应到整体模型结构如何实现,我们进一步分析代码。。

      从这里我们可以看出第一层抽象的实现:

      对应于ID的one-hot编码,lookup查表的方式生成了一个低维的向量表示。

      用embedding_lookup做id类特征embedding由google的deep&wide提出,但隐藏了具体实现细节。

      参考网址:

https://www.zhihu.com/question/48107602

      对于属性向量,这里直接和满足正态分布随机初始化矩阵相乘。

2.3模型框架描述

       创新点1:初期的结构属性向量结合,使得训练过程中能够使得相互关系包含在其中。

       创新点2:对初期的输入向量做了抽象表示

      Embedding层:这一层主要实现了输入向量到嵌入向量的转化

     分析源码发现这一部分的实现就简单的使用了单个神经元模型。

     下面的代码给出了优化函数:

      Hidden层:这里是一个多层感知机,实现嵌入向量的高层非线性抽象,这里为实现组成抽象低维化,每一层维数为前一层的一半。

      Output层:这里将节点i的隐藏层输出向量转化为条件概率的拼接表示。

      这里主要是通过前面定义的 计算如下:

      算法的最终向量表示:

     作者采用

 的形式。

三、实验

3.1试验数据集

        朋友关系数据集:身份、性别、主修、辅修、高中学校、入学年份

OKLAHOMA

UNC

       引文网络数据集:标题内容的抽取

DBLP

CITESEER

3.2评测方法

       网络表示学习算法的常用评测任务:节点分类和链路预测

       使用10%测试集,10%做验证集训练超参数,80%用于训练

       使用ROC曲线下方面积AUC指标作为评价指标

       节点分类:反映表示向量是否有效保留可供下游应用充分利用的信息

       使用LIBLINEAR工具进行有监督的节点分类实验,macf1/micf1指标

3.3实验结果

四、下一步研究

       Ø  改进SNE算法使得其融合多模态数据:图像等

       Ø  提出SNE的监督或者半监督的变体算法,使其适用于特定任务

       Ø  研究动态网络的表示学习问题,利用时间感知的循环神经网络等

      Ø  研究提高SNE算法效率的方式,使其适用于大规模产业应用,如使用哈希技术等

      这是作者给的研究方向,我认为在2.3两点的研究价值更为可观。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【陆勤践行】面试之机器学习算法思想简单梳理

找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且...

23880
来自专栏决胜机器学习

卷积神经网络(五) ——面部验证与神经风格转换

卷积神经网络(五) ——面部验证与神经风格转换 (原创内容,转载请注明来源,谢谢) 一、概述 本文主要讨论面部验证和神经风格转换两种技术,都是CNN的实际应用。...

32760
来自专栏智能算法

常见面试之机器学习算法思想简单梳理

来源: tornadomeet 的博客(@tornadomeet) 链接: www.cnblogs.com/tornadomeet/p/3395593.htm...

385100
来自专栏机器学习算法工程师

《机器学习》笔记-决策树(4)

作者:刘才权 编辑:黄俊嘉 写在最前面 如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,...

41890
来自专栏Python数据科学

【算法面经】:机器学习面试算法梳理

机器学习算法面试一直是大家比较苦恼的事情,各种算法经常弄混,或者无法透彻理解。分享一篇非常好的机器学习算法面试干货总结,梳理算法原理,优缺点。

14520
来自专栏人工智能头条

一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

23840
来自专栏AI科技大本营的专栏

详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割

译者 | 王柯凝 【 AI 科技大本营导读】目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算...

2.2K70
来自专栏机器之心

AAAI 2018 | 阿里iDST联合华东师大提出τ-FPL: 线性时间的约束容忍分类学习算法

424100
来自专栏磐创AI技术团队的专栏

深度学习之视频人脸识别系列四:人脸表征-续

【磐创AI导读】本文是深度学习之视频人脸识别系列的第四篇文章,接着第三篇文章,继续介绍人脸表征相关算法和论文综述。在本系列第一篇文章里我们介绍了人脸识别领域的一...

41410
来自专栏大数据文摘

AlphaGo Zero用它来调参?【高斯过程】到底有何过人之处?

20030

扫码关注云+社区

领取腾讯云代金券