首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >K-均值与LSH算法

K-均值与LSH算法
EN

Stack Overflow用户
提问于 2016-12-12 10:49:16
回答 1查看 2.4K关注 0票数 0

我对数据挖掘和ML非常陌生。我想知道k和LSH的意思有多不同。在网上阅读了很少的论文和其他资料后,这两种算法似乎都试图实现类似文档的分组/聚类。对于像垃圾邮件检测这样的应用程序,它们中的任何一种已经在许多论文中得到了应用。但我不太清楚它们有何不同,如果我们将其用于垃圾邮件检测之类的应用程序,结果会有什么不同呢?

EN

回答 1

Stack Overflow用户

发布于 2016-12-12 21:15:36

LSH不对数据进行聚类。

适用于几乎重复的(!)侦测到。

  1. LSH按设计可能产生“假阳性”(散列词),这一点根本不相似。
  2. LSH有一个阈值t,它只尝试为低于此阈值的对象生成散列花括号。为了获得良好的性能,您需要尽可能地选择这个阈值。对于集群,您确实需要能够在桶外(比t更远)找到对象--用LSH无法可靠地做到这一点。
  3. LSH会随机设置桶边界;您之所以没有注意到这一点,唯一的原因是您多次这样做,并希望不是所有这些都被错误地选择了。所以你只能得到几乎所有的近邻。甚至可能只有90%,取决于你的参数。由于每个对象都在多个桶中,它的集群是什么?您会得到大量重叠的“集群”,每个“集群”只包含部分数据。如何有效地从中找到好的集群是非常清楚的。

LSH实际上是关于“几乎相同的”对象,而不是在数据中找到更大的结构。

我认为垃圾邮件检测也不是一个很好的用例--你知道有任何垃圾邮件过滤器会这样做吗?几乎重复的新闻检测,例如,谷歌新闻,但与某种类型的LSH有关,据说他们正在使用minhashing。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41099138

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档