微博中的用户画像:微博中的用户模型

作者:@fengyoung 于2015小光棍节

原文:http://www.wbrecom.com/?p=588

社交媒体(Social Media)相对于传统互联网媒体的最大区别是通过建立人与人之间的联系,极大提升了信息生产量以及传播效率。身处社交媒体中的每个人或组织同时扮演着信息生产者、传播者与接受者的角色。

在社交媒体背景下,用户生产、传播和接收信息更加便捷,使得之前相对集中的用户兴趣和行为变得更加碎片化和离散,因此社交媒体中的用户模型的构建和应用也发生了巨大的变化。

微博经历了6年的发展,已经成为了国内社交媒体的中坚力量。本文从微博的角度出发,对微博中用户模型的目的、维度和建模任务进行描述,并作为后续微博用户模型相关文章的总述。

1 构建用户模型的目的

刻画每个用户,是任何一家社交类型的服务都需要面对的问题。不同的公司针对各自业务会有不同的需求,构建用户模型的动机和目标也会存在一定差异。从微博自身的角度来讲,构建用户模型的目的包括:

(1) 完善及扩充微博用户信息

用户模型的首要动机就是了解用户,这样才能够提供更优质的服务。但是在微博中用户的信息提供得不尽完整,有些是因为平台的引导机制造成的(例如填写公司学校信息的时候,相应的机构名或者学校名并不在列表内),有时候又是用户不愿意或懒得提供(例如针对一些非必选项),而且对于用户自行输入的内容又很难进行规范化……此外,一些隐性或变化频繁的信息(例如用户的兴趣、商业偏好、地理位置的变化等等)也需要通过用户的行为挖掘出来。

(2) 分析微博生态

除了了解用户,还需要了解自己。在掌握用户信息的基础上,平台就可以对自身的状况进行分析,从相对宏观的基础上把握微博的生态环境,为后续的优化和发展提供方向性。例如通过对用户信息的聚类,能够对微博用户进行人群的划分,掌握不同人群的活跃程度,信息的传播和引爆方式,行为及兴趣偏好等等。

(3) 支撑微博业务

在微博中的各项业务都与用户模型有着直接与间接的关系,无论是基于兴趣的推荐提升用户价值,精准的广告投放提升商业价值,还是针对特定群体的内容运营,用户模型都是其必不可少的基础支撑。直接地,用户模型可以用于兴趣匹配、关系匹配的推荐和投放;间接地,可以基于用户模型中相似的兴趣、关系及行为模式去推动信息及账号的传播和成长。

2 微博用户模型的维度划分

一个用户可以从多个方面去刻画,也就是说用户模型可以从多个维度来考虑和构建。

作为社交媒体,微博用户在平台上通过某些行为(如发微博、点击图片、播放视频、浏览信息流……)生产或获取信息,也通过其它一些行为(如转发、评论、赞……)将信息传播出去,信息的传播是通过用户之间的社交关系所进行的,并且在生产、消费、传播信息的过程中对信息的选择和过滤体现了用户在兴趣方面的倾向性。由此,我们可以将微博用户模型按照图1所示的四个维度进行划分,即属性维度、兴趣维度、社交维度和行为维度。

图1 微博用户模型的维度划分

用户属性和用户兴趣是通常用户画像中包含的两个维度。前者刻画用户的静态属性特征,例如用户的身份信息(性别、年龄、受教育程度、学校、工作单位……),后者则用于刻画用户在信息筛选方面的倾向(例如用户的兴趣标签、能力标签等)。

社交维度是从社交关系及信息传播的角度来刻画用户的。在社交媒体中,用户不在仅仅是一个个体,用户以及用户之间的社交关系构成了一张网络,信息在这张网络中高速流动,但是这种流动并不是无差别的,信息的起始点,所经历的关键节点以及这些节点构成的关系圈都是影响信息流动的重要因素。社交维度就是要量化这些因素以及其影响程度。

行为维度是一个比较新的研究方向,目的是发现影响用户属性、信息变化的行为因素,分析典型用户群体的行为模式。一方面可以通过行为模式的复用来促进用户在微博平台的成长;另一方面也有利于平台认识用户,和发现新的或异常的用户行为。

3 用户建模的任务

3.1 属性和兴趣维度(用户画像)

属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴,即对用户的信息进行标签化。一方面,标签化是对用户信息进行结构化,方便计算机的识别和处理;另一方面,标签本身也具有准确性和非二义性,也有利于人工的整理、分析和统计。

用户属性指相对静态和稳定的人口属性,例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等,在此基础上需要进行补充和交叉验证。

用户兴趣则是更加动态和易变化的特征,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大,在用户兴趣分析的过程中,主要考虑如下几个方面:

(1) 标签来源:不是所有的词都适合充当用户标签,这些词本身应该具有区分性和非二义性;此外,还需要考虑来源的全面性,除了用户主动提供的兴趣标签外,用户在使用微博的过程中的行为,构建的用户关系等也能够反应用户的兴趣,因此也要将其考虑在内。

(2) 权重计算:得到了用户的兴趣标签,还需要针对用户给这些标签进行权重赋值,用来区分不同标签对于该用户的重要程度。

(3) 时效性:随着时间的变化,用户的兴趣会发生转移,有些兴趣会贯穿用户使用社交媒体的全过程,而有些兴趣则是受热点时间、环境因素等的影响。

(4) 兴趣和能力的区分:用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。区分兴趣和能力,能有助于预测兴趣相关内容潜在的生产者和传播者。

3.2 社交维度

如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑结构,或称作社交图谱。微博中的信息就是在这个图谱上进行传播。

从社交的维度建立用户模型,需要从不同的角度细致和全面地描述这个社交图谱的特征,反应影响信息传播的各层面上的因素,寻找节点之间的关联想,以及刻画图谱本身的结构特征。其中包括:

(1) 用户个体对信息传播的影响:不同用户在信息传播过程中的重要性不一样,影响大的用户对于信息的传播较影响小的用户更具有促进作用。

(2) 量化用户关系的远近:衡量存在直接关联(关注、被关注、互粉……)用户之间的关系远近,关系越近的用户之间越容易产生信息传播行为。

(3) 延伸用户之间的关系:通过用户之间的直接关系(关注、被关注、互粉……),让本身并不存在直接关系的用户产生关联。

(4) 寻找相似的用户:微博中非对等的关系本身可以认为是一种认证,用户基于兴趣、线下关系、或某种其它原因反应到线上的一种关联。那么在关系维度上的相似用户至少能反应他们在某种因素上的一致性。

(5) 识别关系圈:从关系图谱的本身的结构出发,从中发掘关联紧密的群体,有助于信息的精准投放和推广。

以上关于关系建模的任务可以看作是逐步深入的,从“个体”-->“关联”-->“相似”-->“群体”的逐渐深入。

3.3 行为维度

分析用户的行为,建立行为模式有两个任务:针对典型个体行为进行时序分片,分析用户成长的相关因素;针对典型群体的行为进行统计,构建其行为模型。

(1) 典型个体的行为时序分析

所谓典型个体是指某段时间内,成长比较突出的微博用户。例如从一个新用户从新注册到粉丝过百、过千需要有一个积累过程,有些用户积累较快,有些较慢,而这些积累较快的用户可以作为典型个体;或者某些用户在某一阶段传播力有限,但在某时刻传播力激增,无论是互动还是内容传播覆盖面都变化很大,这种也可以作为典型个体。

针对典型个体,需要挖掘与其用户成长相关的行为因素。基本方法是对时间进行分片,获取用户在不同时间片上的行为统计,以及在各个时间分片上的用户成长指标(粉丝数、互动率、传播力等),如图2所示。在此基础上针对用户行为的统计量的变化,利用关联性分析或回归来分析用户成长与哪些因素有关。

图2 时间分片上的用户行为统计

(2) 典型群体行为模式分析

针对典型个体,从用户的基本信息、人口信息、兴趣维度,可以将相似的典型用户划分为同一的群体,称作典型群体,针对典型群体中的用户按照成长程度进行划分,按不同的成长阶段统计用户行为,即建立了该典型群体的行为模型。

例如,对于“北京,年龄在20~30岁,女性,电商领域,普通账号”这样的典型群体,从粉丝数、传播力、互动率等维度将其划分到初创、成长、快速提升、成熟……等阶段,针对不同成长阶段内的行为组合进行统计,结果构成该群体的行为模式。

4 小结

构建用户模型是社交媒体中的基础工作,涉及到数据、统计、挖掘等各方面的技术和手段。本文针对微博的特点和业务需要,针对其中的用户模型构建的目标和任务进行了简述。全文并没有涉及具体的方法和原理,后续会有相应的技术文章进行介绍。

需要指出的是,不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种关系不仅令传播更加高效,也令考虑关系因素成为了用户建模中(无论是在属性、兴趣、社交还是行为维度上)非常重要手段。

微博中的用户画像

从以上对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴。而所谓用户画像,简单来说就是对用户的信息进行标签化。如图1所示。一方面,标签化是对用户信息进行结构化,方便计算机的识别和处理;另一方面,标签本身也具有准确性和非二义性,也有利于人工的整理、分析和统计。

图1 用户信息标签化

用户属性指相对静态和稳定的人口属性,例如:性别、年龄区间、地域、受教育程度、学校、公司……这些信息的收集和建立主要依靠产品本身的引导、调查、第三方提供等。微博本身就有比较完整的用户注册引导、用户信息完善任务、认证用户审核、以及大量的合作对象等,在收集和清洗用户属性的过程中,需要注意的主要是标签的规范化以及不同来源信息的交叉验证。

用户兴趣则是更加动态和易变化的特征,首先兴趣受到人群、环境、热点事件、行业……等方面的影响,一旦这些因素发生变化,用户的兴趣容易产生迁移;其次,用户的行为(特指在互联网上的行为)多样且碎片化,不同行为反映出来的兴趣差异较大。接下来主要介绍一下微博画像中兴趣维度的构建方法。

2. 微博用户兴趣分析

(1) 标签来源

用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。

图2 用户兴趣标签来源

(2) 权重计算

在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。

不同质量的用户自身产生的标签权重不一样,质量越高,认为该标签的可信度越高,无论是将该标签赋给自己还是传递出去的时候其权重值越高。

标签的传递路径主要是针对基于关注关系的标签传递,亲密度比较高的关注用户传递过来的标签权重值会比较高。

标签是来自于用户的原创还是其转发的微博,权重值会有区别,一般来说原创的权重会高于转发权重。

如果标签本身是一个非常常见的词,那么它用于刻画用户的兴趣的区分性是比较差的,相反如果是一个长尾词,则区分性较强。出于这样的考虑,越是长尾词,标签的权重值会越高。

标签与用户的共现关系是指用户和该标签是否经常共同出现,评价的是两者的关联性。关联性越高,则标签的权重值越高。

综合上述的因素,一个标签对于特定用户的权重值可以大致表示为:标签权重 = (来源因子 + 亲密度因子 + 转发因子 + 长尾因子) × 共现因子。

(3) 时效性

随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。

图3 时间衰减函数

此外,针对用户的兴趣,还会设定一个较小的时间窗口来获取用户的短期兴趣。通过用户在短时间内的原创、转发和关注行为收集兴趣标签,并计算标签的权重。短期兴趣更新周期会较长期兴趣更短,兴趣更集中,但是能够比较及时地反应用户兴趣的变化。

(4) 从兴趣到能力

然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。

微博中的关注关系可以认为是一种认证,具有相同兴趣的用户之间的关注则有可能是兴趣相投(当然也可能不是,但毕竟有一定的指导性),那么将具有相同兴趣标签的用户提出来,通过关注关系构成一个有向图,被认证得最多的用户(被关注边指向得最多)被认为在这个兴趣标签上具有最强能力。如图4所示中的带红色边框的用户。

图4 具有相同兴趣标签用户基于关注关系构成的有向图

3. 小结

用户画像的目的是将用户信息标签化,本文中介绍针对微博本身的特点介绍微博用户画像的构建,该用户画像主要还是从微博的业务出发,完善用户信息和发掘用户兴趣,区分兴趣和能力,并形式化结构化表达出来。数据的来源也主要是微博平台本身,并没有采用更多的边缘数据。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

【AI创新者】IBM宋煜:Watson之外的第二条AI通路

1916
来自专栏数据科学与人工智能

人工智能技术在移动互联网发展中的应用

随着移动互联网的发展进入新的方向,移动互联网中的智能化已经成为新的发展趋势和主要需求。智能化需求目前主要体现在两个方面: ●一方面是促生新的智能化应用,如自动驾...

3294
来自专栏SDNLAB

HPE推出新的人工智能平台和服务

HPE周三宣布推出新的专用平台和服务功能,将帮助企业简化人工智能的采用,并将新产品与人工智能结合,侧重于加强深度学习,该公司的新产品包括硬件、软件、参考设计和研...

3076
来自专栏ATYUN订阅号

【科技】AI创新将引发“机器人网络效应” 促进机器人技术快速发展

作为当今智能机器人的核心,传感器和AI相融合正产生良性的反馈回路,或者我们所说的“机器人网络效应”。我们目前正处于“机器人网络效应”临界点的边缘,这将大幅加速机...

3296
来自专栏机器人网

一台电脑也可打造你所需要的人工智能大脑

当Google使用16000台机器建造了一个可以正确识别出YouTube视频中是否有猫的仿真“大脑”时,这就标志着人工智能(AI)技术迎来了一个转折点。这种新兴...

3197
来自专栏DT数据侠

当城市数据和社会关系被可视化,每个人都可能是福尔摩斯

现代城市是由人、机、物等组成的繁复的生活系统,其间产生的数据可用巨量来形容。要对这些宏大的数据进行收集、梳理并作分析,难度有之。在云栖大会上,浙江大学计算机学院...

590
来自专栏新智元

牛津大学研发类脑光子芯片,运算速度超人脑1000倍

【新智元导读】牛津大学等的研究人员研发了一种模拟人脑突触行为、利用光子集成电路的“光子芯片”。在测试中,这种芯片的运算速度可以比人脑的速度快1000倍。这种芯片...

3314
来自专栏人工智能快报

科学家提出人机交互新方法

2016年7月12日,美国马萨诸塞大学安姆斯特分校网站发布消息称,该校研究人员创造了一种人机控制转移的新方法。 马萨诸塞大学安姆斯特分校计算机科学研究生Kyle...

35114
来自专栏量子位

提到强化学习只知道AlphaGo?其实,RL在工业界还有这些应用

原作 Ben Lorica 唐旭 编译自 Oreilly 量子位 出品 | 公众号 QbitAI 关于作者: Ben Lorica,O’Reilly Media...

2573
来自专栏数据科学与人工智能

人工智能技术在移动互联网发展中的应用

智能化需求体现在两个方面 随着移动互联网的发展进入新的方向,移动互联网中的智能化已经成为新的发展趋势和主要需求。智能化需求目前主要体现在两个方面: 一方面是促生...

36310

扫码关注云+社区