学界 | 清华与迈阿密大学独家解析:更新了朋友圈和微博动态,好友何时会点赞评论?

AI科技评论按:本文由清华大学媒体与网络实验室以及迈阿密大学物理系共同合作完成,作者包括:余林韵(清华大学计算机系博士生,已毕业加入今日头条人工智能实验室)、崔鹏(清华大学计算机系副教授、博士生导师)、宋超明(迈阿密大学物理系助理教授)、张天扬(清华大学计算机系博士生)、杨士强(清华大学计算机系教授、博士生导师)。

在社交网络中,用户们会对周边用户的行为做出反应,这些在不同时间、空间发生的行为构成了社交网络中的信息流。其中,用户与用户间的交互行为是整个信息传播过程中最微观的指标,它对理解和揭示信息传播过程的形成和演化机制起到了基石性的作用,对其进行研究十分必要。

目前,学界中已尝试提出了一系列模型对用户行为动力学进行刻画。这当中,大部分模型假设了个体与个体之间的相互作用是高度随机的,遵循泊松过程。最近,一些工作在真实数据中发现,个体行为在响应时间维度(即一个人收到一个消息的时间到他做出一个响应的时间之间的持续时间)以及事件间时间维度(即同一人相邻两个行为之间的持续时间)均存在非常奇异的模式:

  • 首先,绝大多数的响应都产生于极短的时间范围当中,而有一些响应存在长时间停顿的现象,导致响应时间出现了长尾分布的现象,这与会生成出指数分布响应的泊松过程的情况相悖;
  • 其次,最近的一些研究表明,人类行为动态的周期性规律,如工作-休息时间,会十分明显地影响用户行为的动力学过程。

到底哪些才是用户行为动力学的基本要素?什么模型能够呈现出这些现象?目前,这些问题仍然没有一个明确的答案。

本文探索了一个由500万用户组成的大规模社交交互数据集,发现人类的交互行为动态呈现出极其复杂的特性。下图展示了用户交互行为在不同时间上的响应时间密度函数Pt(τ)。

用户交互行为在不同时间上的响应时间密度函数Pt(τ),横坐标为t,纵坐标为τ

从图中可以很明显发现:随着响应时长的变化,用户的活跃度也不断发生变化。与此同时,响应时间密度函数在自然时间尺度也呈现出了周期性的变化趋势。这些现象表明,社会用户行为动力学在多重时间维度均存在异质性。尽管目前已有一些模型分别解决了用户交互行为在响应时间和人类行为昼夜变化的规律,但是这些模型均无法同时对这两个组成部分进行建模,导致在对用户交互行为进行建模和预测时产生偏差。

为考虑复杂的等待时间模式和人类不均匀的用户行为活动,作者根据自然时间变量 t 和响应时间变量 τ 设计了一个时序异质生存框架。它尝试回答如下问题:

如果在时刻发生了一个事件,经过一定时长之后出现对此事件的回应的概率是多少?如果经过了一定时长后仍然没有发生回应,此时它(响应)发生的概率是多少?

根据框架的目标,作者提出了三个度量指标:

1. 概率密度函数,记录事件从t 开始、响应持续时间为τ(在τ时间之后发生回复)的可能性。

2. 生存函数,累计函数的倒函数 1-CDFt(τ) ,给出了在 t+τ 之前没有发生响应事件的概率。

3. 危险函数,或称作强度函数,给出在t+τ时刻未发生响应事件的条件响应概率(t+τ时刻发生响应事件相对所有在t+τ前未发生响应事件的占比)。

给定这三个度量指标中的任意一个,另外两个指标也可被直接确定,其中危险函数通常具有最简洁的表达形式。因此,在生存模型比较复杂的情况下,一般会采用刻画危险函数的方式进行建模。

由于这是一个设计在概率框架下的模型,我们可以通过最大化对数似然的方式进行求解。利用微积分里的链式法则,我们只需要求出危险系数关于参数的偏导,就能方便的通过拟牛顿法得到参数的结果。

通常情况下,用户交互行为在自然时间和响应时间二个维度中的密度函数过于复杂,导致难以直接设计可被理解的危险函数。因此,我们利用了分治的思路以更好对危险函数进行建模:

  • 首先,我们需要算法设计一个拉伸函数 ω(t),以表示用户在不同自然时刻的活跃度;
  • 其次,算法还需要设计另一个响应函数 G(τ),用于刻画在不同响应时间τ上的回复强度的变化;
  • 最后,我们通过下式将以上两个函数结合起来最终确定出危险函数的形式:

通过这种分解方法,本模型可以很容易构建出以前提出的所有模型。例如,当拉伸函数 ω(t) 在每个点保持相同的值(等于 1)时,危险函数将退化为: G(τ),等价于同质的生存模型;另一方面,当响应函数 G 保持不变时,危险函数将退化为:ω(t)乘以常数c,而此情况等价于异质泊松过程。

综上所述,同质生存模型和异质泊松过程所需要的所有特性都能通过这种分解模式在时序异质生存框架中得到体现。

针对本文研究数据集的用户交互特性,我们设计了一个周期性的混合高斯模型来刻画时间的拉伸属性,之后,我们又设计了一个位移函数来刻画不同回复时长下的响应强度。其中,位置参数β主要控制用户的思考时间对短尺度回复时长响应强度的影响;形状参数α主要控制中尺度回复时长维度响应强度的幂律衰减斜率;而比例参数λ0主要描述长尺度回复时长维度的响应强度的指数衰减效应。

实验表明,我们的模型可以成功复现出社交交互数据集中用户的交互行为模式。从下文展示的对比图可发现,我们的模型模拟生成的结果的用户行为密度函数与真实情况是十分相似的。而在统计指标的对比中,本模型成功使得 77.1% 的数据同时通过了响应时长 KS-test 测试以及日常活跃度 KS-test 测试,准确率相较已有方法提升了 36.6%。

准确率提升:36.6%

此外,由于我们模型的参数具有明确的物理意义,我们对模型中用户响应函数的参数进行了进一步分析,试图挖掘出用户的行为倾向。

首先,参数β的分布形式是一个有两个峰的联合分布。其中,接近0点的峰值表明,一大批网络中的用户是乐于不经思考便无脑回复的。相比之下,另一部分用户通常会在回复前对信息进行更谨慎的判定和思考。对于后者,我们应该更加专注于所发消息的品质,以吸引这部分用户更好得帮助我们分享信息。

参数α描述了不同时长对用户回复的影响。其中,当α>0时,回复概率随时间流逝逐渐变低,是一个早衰过程;α=0时,回复概率与时间无关;α<0时,回复概率随时间流逝逐渐变高。

在我们的数据集中,参数α服从正态分布,其中有36.4%用户α>0.01,对于这部分用户,他们回复概率随时间流逝逐渐变低,因此,我们需要仔细考虑给这些用户发消息的时间,以提升这些用户回复消息的概率。

最后,比例参数λ0主要控制了响应时长的指数衰减,在我们的数据集中,λ0服从了e-10的LogNormal分布,其较小的值说明了网络中的用户对该网络有着较大的粘性。

总结:本文提出了一个综合性的时序异质用户动力学生存框架,框架能够同时对用户交互行为在响应时间维度和自然时间维度的影响进行刻画。通过为框架设计的一般性分解方案,该框架涵盖了目前针对用户交互动力学行为设计的所有模型。

由于该框架是在概率框架下进行设计的,模型可方便得通过最大似然法来进行求解。之后,本文对一个大规模的社交网络用户交互行为数据集进行了观察,并根据其中的用户行为特性进行了针对性的建模,模型中的参数具有明确的物理意义,其数据分布有助于对社会动态的基本规律进一步进行理解,并可针对性的为用户设计推广方案。实验证明,本模型可以成功复现出社交交互数据集中用户的交互行为模式。相比当前方法,模型在统计指标上获得了很大的提升。此外,模型在多个数据集上均展现出了很高的准确率,表明其具有很强的泛化能力。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-10-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯云技术沙龙

冀永楠:OCR的应用锦集及背后技术

今天分享的主要是OCR的部分。分享腾讯云在OCR上做的一些工作,以及腾讯云目前在云上面开放的OCR的一些服务。OCR简单来说就是让机器能看懂写的文字。我们手写的...

2326
来自专栏AI科技评论

Andrej Karpathy发文谈神经网络:这不仅仅是分类器,这是一种新的软件开发思想

AI科技评论按:有越来越多的传统编程语言(C、C++、Java)等程序员开始学习机器学习/深度学习,而对机器学习/深度学习的研究人员来说,编程也是必备技巧。那么...

3145
来自专栏PPV课数据科学社区

21个必知的数据科学面试题及答案

Q1.解释什么是正则化,以及它为什么有用。 回答者:Matthew Mayo 正则化是给模型添加一个调优参数的过程,来引导平滑以防止过拟合。(参考KDnugge...

3097
来自专栏AI研习社

Andrej Karpathy谈神经网络:这不仅仅是分类器,这是一种新的软件开发思想

有越来越多的传统编程语言(C、C++、Java)等程序员开始学习机器学习/深度学习,而对机器学习/深度学习的研究人员来说,编程也是必备技巧。那么传统程序员和深度...

3074
来自专栏灯塔大数据

每周学点大数据 | No.50 众包应用举例

No.50期 众包应用举例 小可:那除了维基百科之外,众包还有哪些应用呢? Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法...

3268
来自专栏新智元

微软视觉智能技术突破: 首次 bot 生成视频标题,将开源大型数据库

【新智元导读】台湾国立清华大学与微软合作,首次实现了让机器自动生成视频标题。他们创建了一个系统,可以由机器人观看视频、找出视频中的亮点,然后生成简洁、吸引眼球的...

36213
来自专栏大数据文摘

研究上千张数据图表后 我学到12条可视化的秘密准则 | 附资源

2184
来自专栏灯塔大数据

干货|21个必知数据科学面试题和答案

最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets...

1974
来自专栏PPV课数据科学社区

入行AI最需要的五大技能

摘要: 作为一名软件工程师,我们应该活到老学到老,时刻与不断发展的框架、标准和范式保持同步。同时,还要能活学活用,在工作中使用最合适的工具,以提高工作效率。随着...

4247
来自专栏人工智能头条

如何将深度学习与你正在做的事情相结合?

1782

扫码关注云+社区