首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在数据集中,我们为什么不用数字来表示标称的一部分呢?

在数据集中,我们为什么不用数字来表示标称的一部分呢?
EN

Data Science用户
提问于 2019-12-26 10:21:54
回答 2查看 50关注 0票数 1

我正在试着预处理一个小数据集。我不明白为什么我不应该做我解释过的事情:

例如,假设我们有一个属性,它以三个标称值来描述天气的温度:热、温和和冷。我理解这些定义可能是从数值中总结出来的。

但是,为什么我们要总结这些在一个尺度上的价值,而在这个过程中失去规模呢?

如果该算法(任何分类算法)认识到热和冷的区别是热和冷的区别的两倍,那么用整数1、2和3来表示热、温和和冷的区别会不会有帮助呢?

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-12-26 14:51:47

在进行机器学习预处理时,需要明确的问题有两点:

  1. 根据学习算法的不同,您可能需要将分类数据转换为数字格式;例如,拆分树不需要它,并且可以处理分类数据,而另一个回归标志则需要数字作为输入。
  2. 如果您必须将数据转换为数字,则有两种可能:
    • 整数编码:这是您正确描述的情况;使用这种方法,只需按序数顺序更改标签就没有问题了(事实上,这样做更好,这样algo就可以了解冷和热之间的自然距离,而不是冷和温和。尽管如此,对于一个决策树来说,这并不重要,因为这些都是标签。
    • 单热编码:当算法类型需要数字,且数据中没有序数性质时,这是防止非序数数据被理解为序数所需的选项。更多信息这里
票数 0
EN

Data Science用户

发布于 2019-12-26 20:19:38

这正是标签编码的作用。这就是标签和热编码(至少一种)之间的区别,换句话说,当您想要表示这样的信息时,即冷是一个不同的/更强/更弱的效果,您可以使用标签编码显式地告诉您的算法。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/65452

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档