在单打独斗的论文这里中,作者给出了当某些特征是标称的,而有些是连续的时,创建合成示例的逻辑(第6.1节,SMOTE )。
提供了这个例子:
F_1 =1 2 3 A B 让这是我们计算最近邻居的示例。 F_2 =4 6 5A D E F_3 =3 5 6A B K So,F_2与F_1之间的欧氏距离为:Eucl = \sqrt{(4-1)^2 + (6-2)^2 + (5-3)^2 + Med^2 + Med^2} Med是少数类连续特征标准差的中值。特征号5: B→D和6: C→E包含两次中间项,这两个特征向量不同:F_1和F_2。
本文对名词性特征为什么会受到连续特征的影响缺乏解释。
有人能提供这样的解释吗?我错过报纸了吗?
发布于 2018-02-28 09:42:30
我最近也考虑过同样的问题,我想我可能会有一个可能的解释。
由于我们需要计算k近邻之间的距离,所以我们必须提供一些综合值来表示标称特征之间的差异。事实上,它可以是任何价值。例如,假设您有您的名义功能,一个热编码。在这种情况下,两个不同的名义特征之间的差异将是1。
但是,您也希望将计算出的距离或多或少保持在相同的比例上,就像只使用连续的特性一样。我相信,使用连续特征的标准差中位数有助于准确地实现这一点,也是为什么选择它作为衡量标称特征之间的差异的原因。
https://datascience.stackexchange.com/questions/26374
复制相似问题