,代表性子集应尽可能拟合原数据集的样本分布,即,与原数据集具有较少的分布损耗(类似于原数据集中每个领域的人物分布,代表性子集能够拟合原数据集每个领域的人物分布)
3.从差异性角度上,代表性子集需要能够作为每个领域的典型人物...,所以代表性子集内部各领域之间的人物需要保持一定的差异性,即,代表性子集内部需要较大的差异性或较小的相似性
版本二.
1.从特征角度上,他们很好的代表了原数据集用户的属性特征(行为习惯/性格特征/领域情况等等...),即,与原数据集用户具有较少的特征损耗
2.从分布角度,代表性子集在满足(1)条件下应尽可能的分散或稀疏,使得子集可以尽可能地还原原数据集的分布,即,P具有具有稀疏性;
-note:如果仅仅要求特征损耗最小...目前倾向于版本一.
2.2 问题定义:
在原数据集人物集合中寻找这样的代表性子集P
a)P能够满足以上代表性的定义
b)P是数量最小的那个代表性集合
2.3 Novel之处或者contibution:...将用户以各个属性构建向量,以向量之间的距离来定义人物之间的代表性.
以Twitter社交拓扑为例,当A用户关注了B用户,将会有A指向B的一条有向边,
3.如何具体评价子集的代表性
4.方法