社交网络中抽取有代表性的用户

1.为什么要做这个问题

1.1 从社会应用角度

  • 在HCI(人机交互)中,实施调查和去获得用户的反馈都是主要针对有代表性的用户.
  • 代表性人物的行为习惯和关注点可以折射出整体用户的兴趣偏向和关注点,对于广告投放,物品推荐是有助的.
  • 对于目前日益增长的社交网络用户,从大量的社交网络用户中抽取一个具有代表性的子集才是Human-readable的,有益于数据分析,相当于一个数据摘要.

1.2 从科研方法的角度

  • 从大量模型或数据点中抽取一个保留了原数据集的特征是机器学习/计算机视觉领域数据分析和推荐系统领域都是一个重要的问题.
  • 机器学习领域,找原型子集来辅助分类算法.

2.怎样定义代表性

Note:和在社交网络中寻找影响力最大化的问题不同,找出具有代表性的用户的目的是抽取一些”平均”的用户,他们能够在统计上代表原来所有用户的特征.

2.1 代表性用户具备的条件:

版本一.

  • 1.从属性特征角度上,他们很好的代表了原数据集用户的属性特征(行为习惯/性格特征/领域情况等等),即,与原数据集用户具有较少的特征损耗
  • 2.从分布特征角度,代表性子集应尽可能拟合原数据集的样本分布,即,与原数据集具有较少的分布损耗(类似于原数据集中每个领域的人物分布,代表性子集能够拟合原数据集每个领域的人物分布)
  • 3.从差异性角度上,代表性子集需要能够作为每个领域的典型人物,所以代表性子集内部各领域之间的人物需要保持一定的差异性,即,代表性子集内部需要较大的差异性或较小的相似性

版本二.

  • 1.从特征角度上,他们很好的代表了原数据集用户的属性特征(行为习惯/性格特征/领域情况等等),即,与原数据集用户具有较少的特征损耗
  • 2.从分布角度,代表性子集在满足(1)条件下应尽可能的分散或稀疏,使得子集可以尽可能地还原原数据集的分布,即,P具有具有稀疏性; -note:如果仅仅要求特征损耗最小,可能会导致代表性子集都聚集在人数较多较相似的团体中,以致于原数据集的分布丢失.

目前倾向于版本一.

2.2 问题定义:

在原数据集人物集合中寻找这样的代表性子集P

  • a)P能够满足以上代表性的定义
  • b)P是数量最小的那个代表性集合

2.3 Novel之处或者contibution:

  • 1.代表性人物包含了两种情况的综合考虑,之前论文中大多考虑单一方面
  • 2.代表性人物的大小不需要先验设定.

将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性. 以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,

3.如何具体评价子集的代表性

4.方法

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WD学习记录

机器学习 学习笔记(18) 提升树

提升树是以分类树或回归树为基本分类器的提升方法,提升树被认为是统计学习中性能最好的方法之一。

30040
来自专栏WD学习记录

机器学习 学习笔记(19)神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

20620
来自专栏WD学习记录

机器学习 学习笔记(11) 贝叶斯分类器

贝叶斯决策论是在概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记,

39230
来自专栏WD学习记录

机器学习 学习笔记(16) 特征选择与稀疏学习

对当前学习任务有用的属性称为相关特征,没什么用的属性称为无关特征,从给定的特征集合中选择出相关特征自己的过程,称为特征选择。

61550
来自专栏WD学习记录

机器学习 学习笔记(12) EM算法

在实际情况中,往往会遇到未观测变量,未观测变量的学名是隐变量(latent variable)。令X表示已观测变量集,Z表示隐变量集,

12930
来自专栏WD学习记录

机器学习 学习笔记(14)k近邻学习

k近邻是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息来进行预测。通常...

10430
来自专栏WD学习记录

机器学习 学习笔记(17) 集成学习

集成学习通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committe...

21320
来自专栏WD学习记录

机器学习 学习笔记(15) 低维嵌入 主成分分析

在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为维数灾难。

47740
来自专栏WD学习记录

机器学习 学习笔记(20)深度前馈网络

深度前馈网络(deep feedforward network),也叫做前馈神经网络(feedforward neural network)或者多层感知机(mu...

51240
来自专栏WD学习记录

机器学习 学习笔记(13)聚类

在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用...

16130

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励