文章/答案/技术大牛

发布

问K-均值与LSH算法
EN

Stack Overflow用户

提问于 2016-12-12 10:49:16

回答 1查看 2.4K关注 0票数 0

我对数据挖掘和ML非常陌生。我想知道k和LSH的意思有多不同。在网上阅读了很少的论文和其他资料后，这两种算法似乎都试图实现类似文档的分组/聚类。对于像垃圾邮件检测这样的应用程序，它们中的任何一种已经在许多论文中得到了应用。但我不太清楚它们有何不同，如果我们将其用于垃圾邮件检测之类的应用程序，结果会有什么不同呢？

machine-learning

cluster-analysis

data-mining

k-means

回答 1

Stack Overflow用户

发布于 2016-12-12 21:15:36

LSH不对数据进行聚类。

适用于几乎重复的(!)侦测到。

LSH按设计可能产生“假阳性”(散列词)，这一点根本不相似。
LSH有一个阈值t，它只尝试为低于此阈值的对象生成散列花括号。为了获得良好的性能，您需要尽可能地选择这个阈值。对于集群，您确实需要能够在桶外(比t更远)找到对象--用LSH无法可靠地做到这一点。
LSH会随机设置桶边界；您之所以没有注意到这一点，唯一的原因是您多次这样做，并希望不是所有这些都被错误地选择了。所以你只能得到几乎所有的近邻。甚至可能只有90%，取决于你的参数。由于每个对象都在多个桶中，它的集群是什么？您会得到大量重叠的“集群”，每个“集群”只包含部分数据。如何有效地从中找到好的集群是非常清楚的。

LSH实际上是关于“几乎相同的”对象，而不是在数据中找到更大的结构。

我认为垃圾邮件检测也不是一个很好的用例--你知道有任何垃圾邮件过滤器会这样做吗？几乎重复的新闻检测，例如，谷歌新闻，但与某种类型的LSH有关，据说他们正在使用minhashing。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41099138

复制

相似问题

问K-均值与LSH算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-均值与LSH算法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-均值与LSH算法
EN