我读过一些关于特征散列的降维方法。我理解使用具有一致输出分布的散列函数(将输入映射到特定值的可能性与范围内的其他值相同)以及雪崩/级联效应(输入的微小变化会导致输出的大变化)是很重要的。这些属性将确保特征之间的碰撞将独立于它们的频率。然而,我仍然不清楚雪崩效应(具体来说)是如何影响到这一点的。有人能解释一下为什么/这有什么关系吗?什么构成了产出的“大变化”?
参考资料:http://blog.someben.com/2013/01/hashing-lang/ http://metaoptimize.com/qa/questions/6943/what-is-the-hashing-trick#6945
发布于 2015-10-13 20:38:32
这样做的想法是,如果您有一个紧密的输入数据集群,您仍然希望哈希函数将所有的输出都抛到地图上。结果是,碰撞将是一个一致随机事件,而不是给你带来一连串碰撞的紧密星系团,或者是与另一个紧密星系团映射的一系列碰撞。
“大变化”表示您的散列函数h应该表明h(a) - h(b)是随机独立于(A)的。
这就足够了吗?如果你需要更多的解释,请跟进。
发布于 2017-05-29 14:54:32
雪崩效应确保输入中的微小变化(例如:云对云)将产生输出的大变化,也就是说,接近输入值将产生远距离和不可预测的输出值。
https://stackoverflow.com/questions/33044221
复制相似问题