我正在试着预处理一个小数据集。我不明白为什么我不应该做我解释过的事情:
例如,假设我们有一个属性,它以三个标称值来描述天气的温度:热、温和和冷。我理解这些定义可能是从数值中总结出来的。
但是,为什么我们要总结这些在一个尺度上的价值,而在这个过程中失去规模呢?
如果该算法(任何分类算法)认识到热和冷的区别是热和冷的区别的两倍,那么用整数1、2和3来表示热、温和和冷的区别会不会有帮助呢?
发布于 2019-12-26 14:51:47
在进行机器学习预处理时,需要明确的问题有两点:
发布于 2019-12-26 20:19:38
这正是标签编码的作用。这就是标签和热编码(至少一种)之间的区别,换句话说,当您想要表示这样的信息时,即冷是一个不同的/更强/更弱的效果,您可以使用标签编码显式地告诉您的算法。
https://datascience.stackexchange.com/questions/65452
复制相似问题