我对数据挖掘和ML非常陌生。我想知道k和LSH的意思有多不同。在网上阅读了很少的论文和其他资料后,这两种算法似乎都试图实现类似文档的分组/聚类。对于像垃圾邮件检测这样的应用程序,它们中的任何一种已经在许多论文中得到了应用。但我不太清楚它们有何不同,如果我们将其用于垃圾邮件检测之类的应用程序,结果会有什么不同呢?
发布于 2016-12-12 21:15:36
LSH不对数据进行聚类。
适用于几乎重复的(!)侦测到。
LSH实际上是关于“几乎相同的”对象,而不是在数据中找到更大的结构。
我认为垃圾邮件检测也不是一个很好的用例--你知道有任何垃圾邮件过滤器会这样做吗?几乎重复的新闻检测,例如,谷歌新闻,但与某种类型的LSH有关,据说他们正在使用minhashing。
https://stackoverflow.com/questions/41099138
复制相似问题