学界 | 清华与迈阿密大学独家解析:更新了朋友圈和微博动态,好友何时会点赞评论?

AI科技评论按:本文由清华大学媒体与网络实验室以及迈阿密大学物理系共同合作完成,作者包括:余林韵(清华大学计算机系博士生,已毕业加入今日头条人工智能实验室)、崔鹏(清华大学计算机系副教授、博士生导师)、宋超明(迈阿密大学物理系助理教授)、张天扬(清华大学计算机系博士生)、杨士强(清华大学计算机系教授、博士生导师)。

在社交网络中,用户们会对周边用户的行为做出反应,这些在不同时间、空间发生的行为构成了社交网络中的信息流。其中,用户与用户间的交互行为是整个信息传播过程中最微观的指标,它对理解和揭示信息传播过程的形成和演化机制起到了基石性的作用,对其进行研究十分必要。

目前,学界中已尝试提出了一系列模型对用户行为动力学进行刻画。这当中,大部分模型假设了个体与个体之间的相互作用是高度随机的,遵循泊松过程。最近,一些工作在真实数据中发现,个体行为在响应时间维度(即一个人收到一个消息的时间到他做出一个响应的时间之间的持续时间)以及事件间时间维度(即同一人相邻两个行为之间的持续时间)均存在非常奇异的模式:

  • 首先,绝大多数的响应都产生于极短的时间范围当中,而有一些响应存在长时间停顿的现象,导致响应时间出现了长尾分布的现象,这与会生成出指数分布响应的泊松过程的情况相悖;
  • 其次,最近的一些研究表明,人类行为动态的周期性规律,如工作-休息时间,会十分明显地影响用户行为的动力学过程。

到底哪些才是用户行为动力学的基本要素?什么模型能够呈现出这些现象?目前,这些问题仍然没有一个明确的答案。

本文探索了一个由500万用户组成的大规模社交交互数据集,发现人类的交互行为动态呈现出极其复杂的特性。下图展示了用户交互行为在不同时间上的响应时间密度函数Pt(τ)。

用户交互行为在不同时间上的响应时间密度函数Pt(τ),横坐标为t,纵坐标为τ

从图中可以很明显发现:随着响应时长的变化,用户的活跃度也不断发生变化。与此同时,响应时间密度函数在自然时间尺度也呈现出了周期性的变化趋势。这些现象表明,社会用户行为动力学在多重时间维度均存在异质性。尽管目前已有一些模型分别解决了用户交互行为在响应时间和人类行为昼夜变化的规律,但是这些模型均无法同时对这两个组成部分进行建模,导致在对用户交互行为进行建模和预测时产生偏差。

为考虑复杂的等待时间模式和人类不均匀的用户行为活动,作者根据自然时间变量 t 和响应时间变量 τ 设计了一个时序异质生存框架。它尝试回答如下问题:

如果在时刻发生了一个事件,经过一定时长之后出现对此事件的回应的概率是多少?如果经过了一定时长后仍然没有发生回应,此时它(响应)发生的概率是多少?

根据框架的目标,作者提出了三个度量指标:

1. 概率密度函数,记录事件从t 开始、响应持续时间为τ(在τ时间之后发生回复)的可能性。

2. 生存函数,累计函数的倒函数 1-CDFt(τ) ,给出了在 t+τ 之前没有发生响应事件的概率。

3. 危险函数,或称作强度函数,给出在t+τ时刻未发生响应事件的条件响应概率(t+τ时刻发生响应事件相对所有在t+τ前未发生响应事件的占比)。

给定这三个度量指标中的任意一个,另外两个指标也可被直接确定,其中危险函数通常具有最简洁的表达形式。因此,在生存模型比较复杂的情况下,一般会采用刻画危险函数的方式进行建模。

由于这是一个设计在概率框架下的模型,我们可以通过最大化对数似然的方式进行求解。利用微积分里的链式法则,我们只需要求出危险系数关于参数的偏导,就能方便的通过拟牛顿法得到参数的结果。

通常情况下,用户交互行为在自然时间和响应时间二个维度中的密度函数过于复杂,导致难以直接设计可被理解的危险函数。因此,我们利用了分治的思路以更好对危险函数进行建模:

  • 首先,我们需要算法设计一个拉伸函数 ω(t),以表示用户在不同自然时刻的活跃度;
  • 其次,算法还需要设计另一个响应函数 G(τ),用于刻画在不同响应时间τ上的回复强度的变化;
  • 最后,我们通过下式将以上两个函数结合起来最终确定出危险函数的形式:

通过这种分解方法,本模型可以很容易构建出以前提出的所有模型。例如,当拉伸函数 ω(t) 在每个点保持相同的值(等于 1)时,危险函数将退化为: G(τ),等价于同质的生存模型;另一方面,当响应函数 G 保持不变时,危险函数将退化为:ω(t)乘以常数c,而此情况等价于异质泊松过程。

综上所述,同质生存模型和异质泊松过程所需要的所有特性都能通过这种分解模式在时序异质生存框架中得到体现。

针对本文研究数据集的用户交互特性,我们设计了一个周期性的混合高斯模型来刻画时间的拉伸属性,之后,我们又设计了一个位移函数来刻画不同回复时长下的响应强度。其中,位置参数β主要控制用户的思考时间对短尺度回复时长响应强度的影响;形状参数α主要控制中尺度回复时长维度响应强度的幂律衰减斜率;而比例参数λ0主要描述长尺度回复时长维度的响应强度的指数衰减效应。

实验表明,我们的模型可以成功复现出社交交互数据集中用户的交互行为模式。从下文展示的对比图可发现,我们的模型模拟生成的结果的用户行为密度函数与真实情况是十分相似的。而在统计指标的对比中,本模型成功使得 77.1% 的数据同时通过了响应时长 KS-test 测试以及日常活跃度 KS-test 测试,准确率相较已有方法提升了 36.6%。

准确率提升:36.6%

此外,由于我们模型的参数具有明确的物理意义,我们对模型中用户响应函数的参数进行了进一步分析,试图挖掘出用户的行为倾向。

首先,参数β的分布形式是一个有两个峰的联合分布。其中,接近0点的峰值表明,一大批网络中的用户是乐于不经思考便无脑回复的。相比之下,另一部分用户通常会在回复前对信息进行更谨慎的判定和思考。对于后者,我们应该更加专注于所发消息的品质,以吸引这部分用户更好得帮助我们分享信息。

参数α描述了不同时长对用户回复的影响。其中,当α>0时,回复概率随时间流逝逐渐变低,是一个早衰过程;α=0时,回复概率与时间无关;α<0时,回复概率随时间流逝逐渐变高。

在我们的数据集中,参数α服从正态分布,其中有36.4%用户α>0.01,对于这部分用户,他们回复概率随时间流逝逐渐变低,因此,我们需要仔细考虑给这些用户发消息的时间,以提升这些用户回复消息的概率。

最后,比例参数λ0主要控制了响应时长的指数衰减,在我们的数据集中,λ0服从了e-10的LogNormal分布,其较小的值说明了网络中的用户对该网络有着较大的粘性。

总结:本文提出了一个综合性的时序异质用户动力学生存框架,框架能够同时对用户交互行为在响应时间维度和自然时间维度的影响进行刻画。通过为框架设计的一般性分解方案,该框架涵盖了目前针对用户交互动力学行为设计的所有模型。

由于该框架是在概率框架下进行设计的,模型可方便得通过最大似然法来进行求解。之后,本文对一个大规模的社交网络用户交互行为数据集进行了观察,并根据其中的用户行为特性进行了针对性的建模,模型中的参数具有明确的物理意义,其数据分布有助于对社会动态的基本规律进一步进行理解,并可针对性的为用户设计推广方案。实验证明,本模型可以成功复现出社交交互数据集中用户的交互行为模式。相比当前方法,模型在统计指标上获得了很大的提升。此外,模型在多个数据集上均展现出了很高的准确率,表明其具有很强的泛化能力。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

OpenAI发布分析报告:AI计算量6年增长30万倍,翻倍趋势将持续下去

OpenAI发布的分析显示,自2012年以来,最大规模的人工智能训练运行所使用的计算量呈指数增长,3.5个月翻一倍(相比之下,摩尔定律需要18个月)。自2012...

631
来自专栏企鹅号快讯

数据挖掘中的十大实用分析方法

1.基于历史的MBR分析 基于历史(Memory-Based Reasoning)的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性...

1906
来自专栏携程技术中心

干货 | 机器学习算法在饿了么供需平衡系统中的应用

作者简介 陈宁,饿了么人工智能与策略部高级算法专家,负责供需平衡系统的算法与研发工作。获新加坡南洋理工大学计算机博士学位,研究方向包括:数据挖掘,机器学习,自然...

43513
来自专栏PPV课数据科学社区

21个必知的数据科学面试题及答案

Q1.解释什么是正则化,以及它为什么有用。 回答者:Matthew Mayo 正则化是给模型添加一个调优参数的过程,来引导平滑以防止过拟合。(参考KDnugge...

3027
来自专栏灯塔大数据

干货 | 数据挖掘入门必看10个问题

NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Da...

3034
来自专栏机器学习算法与Python学习

干货 | 数据挖掘中的十大实用方法,可能你并不一定都熟悉!

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 目录 基于历史的MBR分析 购物...

3665
来自专栏新智元

【珍藏】CMU大师对软件工程师的系统建议(附书和论文下载)

【新智元导读】软件工程师想学机器学习,有什么好建议?机器学习专家、卡耐基梅隆大学教授、1-Page公司首席科学家 Alex Smola 在 Quora 上给出了...

3587
来自专栏AI科技大本营的专栏

AI 技术讲座精选:ChainerMN 分布式深度学习的性能

2017深度学习峰会于今年1月在旧金山落下帷幕。会上,PFN 发布了其在多节点环境下使用 Chainer 的分布式深度学习所取得的进展。在今天的这篇文章中,我会...

33212
来自专栏灯塔大数据

干货|21个必知数据科学面试题和答案

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets...

1934
来自专栏新智元

【干货】ImageNet 历届冠军最新评析:哪个深度学习模型最适合你?

【新智元导读】ImageNet 图像分类竞赛极大地推动了深度学习在计算机视觉领域的应用,《深度神经网络模型分析在实践中的应用》这篇论文从精确度、内存占用、参数、...

3725

扫描关注云+社区