首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >逻辑背后的打击-NC?

逻辑背后的打击-NC?
EN

Data Science用户
提问于 2018-01-07 09:54:03
回答 1查看 2.2K关注 0票数 4

在单打独斗的论文这里中,作者给出了当某些特征是标称的,而有些是连续的时,创建合成示例的逻辑(第6.1节,SMOTE )。

提供了这个例子:

F_1 =1 2 3 A B 让这是我们计算最近邻居的示例。 F_2 =4 6 5A D E F_3 =3 5 6A B K So,F_2F_1之间的欧氏距离为:Eucl = \sqrt{(4-1)^2 + (6-2)^2 + (5-3)^2 + Med^2 + Med^2} Med是少数类连续特征标准差的中值。特征号5: B→D6: C→E包含两次中间项,这两个特征向量不同:F_1F_2

本文对名词性特征为什么会受到连续特征的影响缺乏解释。

有人能提供这样的解释吗?我错过报纸了吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-02-28 09:42:30

我最近也考虑过同样的问题,我想我可能会有一个可能的解释。

由于我们需要计算k近邻之间的距离,所以我们必须提供一些综合值来表示标称特征之间的差异。事实上,它可以是任何价值。例如,假设您有您的名义功能,一个热编码。在这种情况下,两个不同的名义特征之间的差异将是1。

但是,您也希望将计算出的距离或多或少保持在相同的比例上,就像只使用连续的特性一样。我相信,使用连续特征的标准差中位数有助于准确地实现这一点,也是为什么选择它作为衡量标称特征之间的差异的原因。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26374

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档