我试图用IBk (KNN)算法在weka中计算一个回归问题.
最近,我发现了-1相关系数的奇怪结果.
我可以把K赋值为一个很大的数字吗?假设K等于我的数据集的许多实例,当我将K值设置为非常高时,我是否可以把交叉验证排除在外?
如果他们都是真实的,没有问题的话。我们如何解释r=-1的结果?
r=-1表示极强的负相关。那么,你认为我是否犯了错误,把K设为一个大数,同时做LOOCV,关于机器学习和统计的观点?
发布于 2016-01-18 22:52:49
关于第一个问题:
如果指定k=n
,那么所有数据点都是最近的邻居。结果基本上是平均值/最有可能的值。
关于你的第二个问题:
一个非常高的价值不是一个好主意。通常有太多的数据点与原始值没有任何相似之处。kNN的目标通常是处理异常值和噪声。但这只需要额外的几个数据点。
,但,您可以做的是做一个加权k-NN,其中每个数据点都是按其距离加权的。然而,这通常代价高昂。
https://stackoverflow.com/questions/34865078
复制相似问题