1.为什么要做这个问题
1.1 从社会应用角度
在HCI(人机交互)中,实施调查和去获得用户的反馈都是主要针对有代表性的用户....对于目前日益增长的社交网络用户,从大量的社交网络用户中抽取一个具有代表性的子集才是Human-readable的,有益于数据分析,相当于一个数据摘要.
1.2 从科研方法的角度
从大量模型或数据点中抽取一个保留了原数据集的特征是机器学习...,代表性子集应尽可能拟合原数据集的样本分布,即,与原数据集具有较少的分布损耗(类似于原数据集中每个领域的人物分布,代表性子集能够拟合原数据集每个领域的人物分布)
3.从差异性角度上,代表性子集需要能够作为每个领域的典型人物...),即,与原数据集用户具有较少的特征损耗
2.从分布角度,代表性子集在满足(1)条件下应尽可能的分散或稀疏,使得子集可以尽可能地还原原数据集的分布,即,P具有具有稀疏性;
-note:如果仅仅要求特征损耗最小...将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性.
以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,
3.如何具体评价子集的代表性
4.方法