返回一个关于数据挖掘的问题,并在数据挖掘方面与Weka和WekaSharp合作。通过WekaSharp,我对一个相当大的数据集-- KDD Cup 1999 10%数据库( ~70 mb)做了一些分析。用决策树J48算法和朴素贝叶斯算法分别在10 ~ 30 min内完成,取得了良好的效果。当我通过KNN算法运行相同的数据并且它从未完成分析时,它不会出错,它只是永远运行。我试过所有不同的参数,但都没有效果。当我在较小的样本数据集(如iris.arff )上运行相同的KNN算法时,它毫不费力地结束了。下面是KNN参数的设置:"-K 1 -W 0 -A \"weka.core.neighboursearch.KDTree -A \"weka.core.EuclideanDistance -R first- large \\“KNN和大型数据集是否存在固有问题,还是存在设置问题?非常感谢。
发布于 2013-11-26 18:57:39
kNN受制于“维度性的诅咒”:高维数据集的空间查询无法像低维数据集那样有效地优化,从而有效地将其转化为蛮力搜索。
NB嘲笑维度,因为它基本上忽略维度。许多决策树变体在处理高维数据方面也相当出色。kNN不喜欢高维数据.期待等待很长时间。
https://stackoverflow.com/questions/20224828
复制相似问题