干货 | 中科院曹婍:基于深度学习的社交网络流行度预测研究

AI科技评论按:随着诸如 Twitter、Facebook、新浪微博等社交平台的兴起,每天有成千上万的消息在这些平台上产生并传播。在如此大体量的消息中,如何能提前预测某条消息在未来的关注转发量(流行度),对于用户和平台而言都具有很大的意义。因此,本文将为大家介绍目前的网络信息流行度预测研究进展,以及中科院博士生曹婍提出的基于深度学习技术的端到端流行度预测框架(DeepHawkes 模型)。该工作已被国际会议 CIKM 2017 录用并发表。

曹婍,目前就读于中国科学院计算技术研究所的网络数据科学与技术重点实验室,硕博生。硕士导师为沈华伟研究员,博士导师为李国杰院士。本科毕业于中国人民大学信息学院。目前主要研究方向为社交网络上的信息传播建模及预测。

分享题目:基于深度学习的社交网络流行度预测研究

分享大纲如下:

  • 社交网络上消息流行度预测问题的背景简介
  • 现有消息流行度预测的方法以及存在的问题
  • 介绍本人最新提出的基于深度学习技术的端到端流行度预测框架(DeepHawkes 模型)
  • 对于流行度预测问题的一些思考以及心得体会

相关背景

现有的社交平台的兴起,为我们信息的产生和转播带来了极大的便利。光新浪微博每天至少有一千万条微博产生,但并不是所有信息都能获得同样的关注度。在社交网络上,消息之间的关注度也是很不均匀的,大致也遵从二八法则。

信息在社交网络上的传播有什么特性?

不同于传统的信息传播平台,像电视,报纸,更像是一对多的广播平台,也就是有一个源发者。而在微博等社交网络上存在一个关注关系和转发关系,所以在信息的传播上过程中,会产生一个级联现象。

这种现象在社交网络上是独有的,同时也给社交网络上的信息传播预测带来很大的困难。中间任何一个人的参与转发,最终都可能导致信息在最后的流行度有很大的变化。比如有一个大V转发,信息传播可能就会有一个爆发式的增长。

如何形式化定义这个问题?

第一种是把它当做分类问题,也就是预测消息在未来的流行度是否达到一个特定的预值,或者呈现一个翻倍的情况。第二种是把它当做回归问题,也就是说预测消息在未来具体流行度的量级。相对来说,第二个回归问题较难。

把它当做一个回归问题后,如何定义这个问题?

首先给定一个观测时间后,我们能够观测到消息在观测时间内的转发情况。要预测的目标就是在观测时间窗口到最终预测时间窗口之间的流行度的增长量。

为了能更好体现预测的难度,我们把已知的观测时间窗口内的流行度直接去掉,直接来预测观测时间到预测时间中间的增量流行度情况。

现有的研究方法都有哪些?

现有方法可分为两类。第一类是基于特征的方法,第二类是基于生成式过程的方式。

第一类是站在非常传统经典的机器学习角度来做的,大家的主要贡献点在于特征的提取上。现有的方法主要提取以下这四类特征:

  • 消息内容特征
  • 原发者或转发者相关特征
  • 传播结构特征
  • 时序特征

以内容特征为例,在提取内容特征的时候,包括会提取文字里面是否包含特定特征,还有整篇文字情感的正负向比例。这些都属于消息的内容特征。

用户的特征,包括原发用户和转发用户特征,原发用户特征提取包括年龄,性别,注册时间,活跃度以及他的粉丝数等等。转发用户的特征提取和原发用户类似。

结构特征包括两个,第一个是在原始的社交网络上形成的结构,第二个是在某条特定消息传播过程中所形成的传播图结构。会提取图的连通性,广度,深度,以及初度,入度等等。

时序特征,主要是指在传播过程中,传播速率有什么变化。

这样一类通过特征提取,然后利用机器学习方式来进行流行度预测建模的方法是比较传统和比较宽泛的。但我们可以看到在这过程中,并没有对信息传播的深入动态过程进行理解。而只是通过提取各种各样特征尽可能拟合这样一个结果。它是直接受未来流行度预测监督指导的,一般这样的模型预测比较好,但对于我们理解信息传播过程是有缺陷的,因为没有对传播过程进行建模。

第二类生成式方法,是在原有的特征提取基础之上,能够建模信息传播动态过程,能够探寻信息在传播过程中的一些机制,把这些机制建模好。

自增强泊松过程

Hawkes过程,每一次的转发都会对未来消息带来新的激励。

生成式方法中,它是为每一条消息单独建模训练的,它会对观测时间窗口内的每一个事件进行观测,建模的时候,是通过使观测时间内的事件发生概率最大化来学习得到参数的。它一方面有非常好的可理解性,但同时由于监督的数据是观测时间窗口内的每个事件的发生,而不是未来要预测的增量流行度。预测的性能是有缺失的。

因此促使我们希望能够设计一个模型,在受未来流行度监督之下,怎样把生成式过程中关键机制和因子刻画到,这样就能即具有比较好的预测性能,同时也对消息的传播过程有一个较好的理解能力。我们提出了DeepHawkes模型。

DeepHawkes 整体运行框架

实验数据来源及场景

以下分别是微博场景下预测一条消息在未来的转发度和在论文场景下预测未来论文引用量。

总结:我们提出DeepHawkes模型,在端到端直接通过未来流行度监督的深度学习框架之下,刻画了已有的Hawkes模型当中的信息传播过程中比较关键的因子或机制。同时,我们对这三个机制也进行了一定的改进和扩展,包括用用户学到的embeding来替代原先启发式的用户粉丝数,以及建模了整个转发路径的影响,而不仅仅是当前的转发用户。还有,我们使用了非参方式来灵活刻画学习特征和学习时间的衰减效应。

感兴趣的同学可以在ACM的论文库里下载这篇论文。论文题目:DeepHawkes:Bridging the Gap between Prediction and Understanding of Information Cascade

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-12-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

关于深度学习的框架、特征和挑战

在嵌入式系统上的深度学习 随着人工智能 (AI) 几乎延伸至我们生活的方方面面,主要挑战之一是将这种智能应用到小型、低功耗设备上。这需要嵌入式平台,能够处理高性...

34870
来自专栏量子位

详解个性化推荐五大最常用算法

允中 若朴 编译自 Stats&Bots 量子位 出品 | 公众号 QbitAI ? 推荐系统,是当今互联网背后的无名英雄。 我们在某宝首页看见的商品,某条上读...

40150
来自专栏AI研习社

为什么你需要改进训练数据,如何改进?

Andrej Karpathy 在他的 Train AI 演讲中展示了这张胶片,我非常喜欢。这张胶片完美地揭示了深度学习在研究与生产间的区别。通常来说,学术论文...

10210
来自专栏机器学习养成记

用机器学习更快了解用户(翻译)

“ 英文博文的部分翻译。英文原文链接:https://erikbern.com/2017/12/12/learning-from-users-faster-u...

35990
来自专栏ATYUN订阅号

NVIDIA研究人员提出新型深度学习架构,提高标识定位速度

NVIDIA的研究人员与学术界的合作者共同开发了一种新的基于深度学习的标识定位(landmark localization)架构,该架构用于寻找图像特定部分的精...

13660
来自专栏杨熹的专栏

AI 在 marketing 上的应用

23430
来自专栏大数据挖掘DT机器学习

你还在用“人工特征工程+线性模型”?

作者:李沐M 11年的时候我加入百度,在凤巢使用机器学习来做广告点击预测。当时非常惊讶于过去两年内训练数据如此疯狂的增长。大家都在热情的谈特征,每次新特征的...

39680
来自专栏Duncan's Blog

社交网络中抽取有代表性的用户

将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性. 以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,

15620
来自专栏PPV课数据科学社区

【学习】关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞featu...

55480
来自专栏AI科技评论

业界| 英特尔中国研究院深度学习领域最新成果——“动态外科手术”算法

编者注:本文为英特尔中国研究院最新研究成果,主要介绍了一个名为“动态外科手术”算法,有效地解决了处理大型网络时重训练时间长,误剪枝率高的问题。利用该算法,我们可...

31930

扫码关注云+社区

领取腾讯云代金券