首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用于线性组合的服从幂律分布的多变量标准化/标度/规范化的正确方法

用于线性组合的服从幂律分布的多变量标准化/标度/规范化的正确方法
EN

Stack Overflow用户
提问于 2009-04-01 03:09:16
回答 4查看 35.3K关注 0票数 7

我想将社交网络图中的几个节点组合成一个值,用于排序节点:

in_degree + betweenness_centrality = informal_power_index

问题是,in_degreebetweenness_centrality是在不同的尺度上测量的,例如0-15 vs 0-35000,并且遵循幂律分布(至少不是正态分布)。

是否有一种好的方法来重新确定变量,这样在确定informal_power_index时,一个变量就不会支配另一个变量?

三种明显的办法是:

  • 规范变量(减去mean并除以stddev)。这似乎会过多地压缩分布,将长尾值与peak.
  • Re-scaling变量附近的值之间的巨大差异隐藏到0,1之间,方法是减去min(variable),再除以max(variable)。这似乎更接近于解决问题,因为它不会改变分发的形状,但也许它不会真正解决这个问题?特别是,该方法将是different.
  • Equalize,即通过将每个值除以mean(variable)的方法。这不能解决尺度上的差异,但对于比较而言,平均值可能更重要?

还有其他想法吗?

EN

Stack Overflow用户

发布于 2012-06-28 18:44:56

非常有趣的问题。像这样的东西能起作用吗?

让我们假设我们希望将这两个变量缩放到-1的范围,例如betweeness_centrality的例子,其范围为0-35000。

  1. 按变量范围的顺序选择一个大的数字。举个例子,让我们选择25,000
  2. ,在最初的范围内创建25,000桶,在新的范围内创建25,000桶--1,1
  3. ,对于每个数字x--我发现它落在原来的垃圾箱中的bin#。让这是B-i
  4. ,在范围-1,1中找到B-i的范围。
  5. 使用b-i in -1范围的最大值/分钟作为x-i

的缩放版本。

这保留了幂律分布,同时也将其缩小为-1,1,并且没有(x-均值)/sd所经历的问题。

票数 1
EN
查看全部 4 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/703924

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档