对于@j.jerrod.taylor的回答,让我重新表述一下我的问题,以澄清任何误解。
我是数据挖掘的新手,我正在学习如何通过使用"Bin边界“的等宽/距离Binning方法平滑我的数据来处理有噪声的数据。假设数据集1、2、2、3、5、6、6、7、7、8、9。
根据“数据挖掘概念和技术”(Han,Kamber,Pei,2012,数据挖掘概念和技术,第3.2.2节噪声数据)中的定义:
在由边界平滑的bin中,给定的bin中的最小值和最大值被识别为bin边界。然后将每个bin值替换为最近的边值。
问题:-使用Bin边界方法绑定8在Bin3中属于哪里,因为它是+1来自7,-1来自9?
发布于 2016-05-22 05:39:39
提供正确答案的最新信息:
我的课最后讨论了这个主题,我自己的问题的答案是,8可以属于7或9,这个场景被描述为“打破领带”,其中的值与任何一个边界的距离相等。所有这些值都与同一边界保持一致是可以接受的。
这里是一个NIH分析文件的真实例子,它解释了当遇到等距值时使用“领带断裂”:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807594/
发布于 2016-04-27 20:44:09
如果这是一个问题,那么您正在错误地计算您的垃圾箱宽度。例如,创建直方图就是数据绑定的一个例子。
您可以读取交叉验证的this响应。但是通常情况下,如果你试图保存整数,那么你的边界将是一个双。
例如,如果您希望将2到6之间的所有内容都放在一个垃圾桶中,则实际边界将为1.5到6.5。由于您的所有数据都是整数,因此没有机会不对任何数据进行分类。
编辑:我也有同样的书,虽然我似乎有一个不同的版本,因为关于数据离散化的章节是在第二章,而不是像你指出的第三章。根据你的问题,你似乎还没有真正理解这个概念。
以下是除第88页关于数据预处理的第2章外的内容。我在用第二版的课文。
例如,属性值可以通过应用等宽或等频率的联调来离散化,然后用bin均值或中间值替换每个bin值,例如用bin均值平滑或用bin中介平滑。8不属于任何地方,只属于3号垃圾桶。这给了你两个选择。您可以取bin 3中所有数字的平均值/中位数,也可以将bin 3用作一个类别。
在你的例子中的建筑,我们可以取4位数的平均值,这给我们7.75。我们现在用7.75来表示这个垃圾箱中的四个数字,而不是7,7,8和9。
第二个选项是使用bin号。例如,bin 3中的所有东西都会得到3的类别标签,bin 2中的所有东西都会得到2的标签,等等。
https://stackoverflow.com/questions/36884101
复制相似问题